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= (57) Abstract: The invention relates to a data processing method, which runs on a data processing device, for mapping input data 

= *° J* Processed onto output data. According to this method: the data objects to be processed are input as input data; the input data 
ob J ects are processed with aid of a topology-preserving map by the arrangement of neurons according to a predetermined schema 

= ln 3,1 arrangement space; code book objects in the result space are assigned to the neurons, and; code book objects are processed in 

= accordance with the calculation rule of a topology-preserving map while using data objects of the investigation space. The processed 

= code book objects are output as output data. The invention is characterized in that at least a portion of the input data objects is used 

S in order to determine the arrangement of neurons in the arrangement space and/or in that data objects are input, which are required 

= for data Pressing, are independent of the input data to be processed, and which are used as data objects of the information space 

= Th <: ,nventlon additionally relates to a data processing method, which runs on a data processing device, for mapping data objects 

b to be processed onto distance objects. According to this method: the data objects to be processed are input; data objects to be 

= Processed are input; distances between the data objects to be processed are calculated as distance objects, and; these distance objects 

— are output as output data. This method is characterized in that the distances are calculated by means of statistical learning methods 

= local modules, inference statistics methods, and/or by one of the following special calculation methods: Levenstein function mutual' 

^ information, Kullback-Leibler divergence, coherence functions used in signal processing, particularly for bio-signals, LPc'cepstral 

= "Stance, calculating methods, that relate power spectra of two signals, such as the Itakura-Saito distance, the Mahalanobis distance 

== and/or calculating methods with regard to the phase synchronization of oscillators. Finally, the invention relates to a data processing 
method, which runs on a data processing device, for determining the cluster validity. According to this method: data objects are 

s input; distance objects between these data objects are input and/or calculated, and; an assignment of the data objects which are to 

= be processed, to groups is input and/or calculated, particularly in accordance with a method as cited in Claims Nos 1 to 5 and a 

<S) measurement for the quality of this assignment is output as output data. This method is characterized in that the measurement for 

^ the quality of the assignment is calculated by using at least one portion of the input and/or calculated distance objects. The invention 

^ also relates to associated data processing devices and computer program products. 
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J5 (S J?- « U ! a, T e ^'i n8: Erfindun 8 betrifft ein Verfahren zur Datenverarbeitung, das auf einer Datenverarbeitungseinrichtung 
^ ablauft, fur die Abbildung von zu verarbeitenden Eingabedaten auf Ausgabedaten, bei dem: zu verarbeitende Datenobjekte als Ein- 
^ gabedaten e.ngegeben werden, die eingegebenen Datenobjekte mit Hilfe einer topologieerhaltenden Abbildung verarbeitet werden 
O mdem Neuronen nach einem vorgegebenen Schema im Anordnungsraum angeordnet werden, den Neuronen Codebuchobjekte im 
Tf Ergebmsraum zugeordnet werden, Codebuchobjekte verarbeitet werden gemaB der Berechnungsvorschrift einer topologieerhalten- 
0 den Abbildung unter Verwendung von Datenobjekten des Erkundungsraumes, die verarbeiteten Codebuchobjekte als Ausgabeda- 
O ten ausgegeben werden, dadurch gekennzeichnet, daB zumindest ein Teil der eingegebenen Datenobjekte verwendet wird um die 
Anordnung von Neuronen im Anordnungsraum festzulegen, und/oder daB fiir die Datenverarbeimng erfoiderliche, von den zu ver- 
O arbe ! tend ! n Eingabedaten unabhangige Datenobjekte eingegeben werden, die als Datenobjekte des Erkundungsraumes verwendet 
5^ werden. Die Erfindung betrifift ferner ein 
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Verfahren zur Datenverarbeitung, das auf einer Datenverarbeitungseinrichtung ablauft, fur die Abbildung von zu verarbeitenden 
Datenobjekten auf Distanzobjekte, bei dem: zu verarbeitende Datenobjekte eingegeben werden, Distanzen zwischen den zu 
verarbeitenden Datenobjekten als Distanzobjekte berechnet werden, diese Distanzobjekte als Ausgabedaten ausgegeben werden, 
dadurch gekennzeichnet, daB die Distanzen durch statistische Lernverfahren, lokale Modelle, Verfahren der schlieBenden Statistik, 
und/oder durch eines der folgenden speziellen Berechnungsverfahren berechnet werden: Levenstein-MaB, Mutual Information, 
Kullback-Leibler-Divergenz, in der Signal verarbeitung, insbesondere fur Biosignale, eingesetzte KoharenzmaBe, LPC cepstral 
distance, Berechnungsverfahren, die Leistungsspektren zweier Signale in Beziehung setzen, wie z.B. die Itakura-Saito-Distanz, die 
Mahalanobis-Distanz und/oder Berechnungsverfahren im Hinblick auf die Phasensynchronisation von Oszillatoren. SchlieBlich 
betrifrt die Erfindung ein Verfahren zur Datenverarbeitung, das auf einer Datenverarbeitungseinrichtung ablauft, fur die Bestimmung 
der Clustervaliditat, bei dem Datenobjekte eingegeben werden, Distanzobjekte zwischen diesen Datenobjekten eingegeben 
und/oder berechnet werden, sowie eine Zuordnung der zu verarbeitenden Datenobjekte zu Gruppen eingegeben und/oder berechnet 
wird, insbesondere gemaB einem Verfahren nach einem der Anspriiche 1 bis 5, und ein MaB fiir die Qualitat dieser Zuordnung als 
Ausgabedaten ausgegeben wird, dadurch gekennzeichnet, dass das Mass fur die Qualitat der Zuordnung unter Verwendung von 
wenigstens einem Teil der eingegebenen und/oder berechneten Distanzobjekte berechnet wird. Die Erfiindung betrifft ebenfalls 
zugehorige Datenverarbeitungseinrichtungen und Computerprogrammprodukte. 
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Verfahren, Datenverarbeitungseinrichtung 
und Computerprogrammprodukt zur 
Datenverarbeitung 

Die vorliegende Erfindung betrifFt ein Verfahren gemafi dem OberbegrifF des Anspruchs 1 
zur Datenverarbeitung fur die Abbildung von zu verarbeitenden Eingabedaten auf Ausga- 
bedaten; insbesondere zum Lernen durch Selbstorganisation topologieerhaltender Abbil- 
dungen mit zahlreichen Anwendungen fiir Datenverarbeitung und Datenanalyse. Ferner 
betrifFt sie Verfahren gemafi den OberbegrifFen der Anspriiche 6 und 7 zur Datenverarbei- 
tung. Schliefilich betrifFt sie den Verfahren entsprechende Datenverarbeitungseinrichtun- 
gen und Computerprogrammprodukte. 

Obwohl die hierbei verwendeten Konzepte von einer spezifischen Modellvorstellung 
unabhangig sind, ist es fiir das Verstandnis der vorliegenden Erfindung niitzlich, deren 
Beschreibung mit grundlegenden BegrifFen aus dem Fachgebiet der Neuroinformatik zu 
motivieren. Hierdurch konnen vielfach anschauliche Interpretationen im Hinblick auf die 
Lerndynamik in neuronalen Netzwerken geschafFen werden. 

Zur Einfuhrung in die Neuroinformatik sei der Leser auf einschlagige Standardwerke 
verwiesen, z. B. [20], [36]. 

Fiir das technische Verstandnis topologieerhaltender Abbildungen ist es niitzlich, auf 
Grundbegriffe der Datenpartitionierung durch Vektorquantisierung aufzubauen. Die Dar- 
stellung folgt hierbei u. a. [45], [46]. 

1.1 Vektorquantisierung 

Soil ein Datensatz X = {x} mit x € IR n durch eine Menge C von sogenajinten Codebuch- 
vektoren mit C = { Wj e IR n | j 6 {1, . . . , N}} charakterisiert werden, so spricht man 
vom Problem der Vektorquantisierung (VQ). Hierbei soli das Codebuch C die statistische 
Struktur eines Datensatzes X mit der Wahrscheinlichkeitsdichte 

/:IR"-4[0,1], xh/(x) 

in geeigneter Weise reprasentieren, wobei 'geeignet' im Hinblick auf spezifische Zielvor- 
stellungen auf unterschiedliche Weise definiert werden kann. Typischerweise wird die An- 
zahl N der Codebuchvektoren wesentlich kleiner gewahlt als die Anzahl jJC der Daten- 
punkte. Zu den vielfaltigen Anwendungsfeldern der VQ, wie Analyse und Kompression 
grofier Datenmengen, siehe z. B. [17]. VQ-Methoden werden haufig auch als Clustering- 
Verfahren bezeichnet. Beide BegrifFe werden im folgenden synonym verwendet. 

Man unterscheidet bei der VQ zwischen einem sog. hard clustering, bei dem jeder 
Datenpunkt x genau einem Codebuchvektor wy zugeordnet wird, und einem sog. fuzzy 
clustering, bei dem ein Datenpunkt x in geeigneter Weise auf mehrere Codebuchvekto- 
ren Wj abgebildet werden kann. 

Abbildung 1 zeigt schematisch ein neuronales Netz als Modell fur einen Vektorquanti- 
sierer. Es besteht aus zwei Schichten: einer Eingabeschicht und einer Ausgabeschicht. Legt 
man n Eingabezellen mit den Aktivitaten x^, i E {l, . . . , n} zugrunde, so reprasentiert das 
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Eingabesignale 
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J = l w 



Abbildung 1: Schematische Straktur eines Vektorquantisierers. 



Aktivitatsmuster auf der Eingabeschicht einen Datenpunkt x im sogenannten Merkmals- 
raum IR n . Durch gerichtete, mit den Gewichten Wji gewichtete Verbindungen wird diese 
Aktivitat auf die N Zellen der Ausgabeschicht fortgeleitet. Diese Zellen der Ausgabeschicht 
entsprechen den Codebuchneuronen. Die Verbindungsgewichte - d. h. im neuronalen Bild 
- die Synapsenstarken w ; - € IR n , j € {1, . . . , N} werden hierbei so gewahlt, dafi die Akti- 
vitat cij eines Ausgabeschichtneurons j in geeigneter Weise von der Distanz d = ||x - Wj|| 
des Datenpunkts x vom virtuellen Ort des Codebuchneurons j abhangt. d definiert 
dabei ein beliebiges Distanzmafi im Merkmalsraum. Der Begriff „virtueller Ort'j basiert 
hierbei auf der Vorstellung, dafi die Aktivitat a 5 des Codebuchneurons fur x max = ih- 
ren Maximalwert annehmen soil, was als „Spezialisierung" des Neurons j auf den Ort x max 
interpretiert werden kann. 

Nach abgeschlossenem Training des Vektorquantisierers kann ein Eingabesignal x 
durch die Aktivierungen aj{x) der Codebuchneuronen j reprasentiert werden, wobei die 
Verbindungsgewichte des Codebuchneurons j zur Eingabeschicht zum Codebuchvektor 
yvj zusammengefafit werden konnen. 

Manche VQ-Algorithmen lassen sich allgemein als iterative, sequentielle Lernvorgange 
charakterisieren. Hierbei wird zunachst die Anzahl N der Codebuchvektoren fest- 
gelegt, und diese werden initialisiert. Im weiteren wird typischerweise jeweils ein Da- 
tenpunkt x e X zufallig ausgewahlt und die Codebuchvektoren nach der allgemeinen, 
sequentiellen VQ-Lernregel 



aktualisiert. t bezeichnet den Aktualisierungsschritt, e einen frei wahlbaren Lernparameter 
und rp die sogenannte Kooperativitatsfunktion. Der Lernparameter e wird typischerweise 
mit fortschreitendem Aktualisierungsschritt monoton fallend gewahlt. Aufgrund von Ana- 
logien zu Systemen der statistischen Physik wird dies haufig als „Abkuhlung" bezeichnet. 
Vielfach wird eine exponentielle Abkiihlungsstrategie verwendet: 



w 



r.( t + i) = Wj (t) + e{t) ^(t,x,C) (x(t) - w,(t)) 



(1) 




(2) 
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Neben der jeweils gewahlten Heuristik zur Festlegung der Zeitabhangigkeit von e und tf> 
unterscheiden sich zahlreiche VQ-Methoden im wesentlichen durch die Definition der Ko- 
operativitatsfunktion ip. 

Eine einfache Methode fur das hard clustering bietet beispielsweise der LBG- Algorith- 
mic von Y. Linde, A. Buzo und R. Gray [25]. Hierbei wahlt ip in jedem Lernschritt genau 
einen zu aktualisierenden Codebuchvektor Wj gemafi 

1>{t,x>C) := 6 i(x)tj (3) 

aus, wobei i(x) aus dem minimalen Abstand 

||x - w^l = min ||x - Wj)) 

definiert wird, <5 <(x)> j bezeichnet das Kronecker-Delta. Da jeweils nur genau ein Code- 
buchvektor an jedem Lernschritt teilnimmt, spricht man auch von einer winner-takes- all- 
Lernregel. 

Wird tp hingegen so gewahlt, dafi in jedem Lernschritt mehrere Codebuchvektoren 
an der Aktualisierung beteiligt sind, so definiert Gleichung (1) eine winner-takes-most- 
LernregeL Je nach Definition von ^ resultieren hieraus unterschiedliche Methoden fur ein 
sogenanntes fuzzy clustering. 

1.2 Selbstorganisierende Karten 

Ein klassisches Verfahren der Neuroinformatik ist der von T. Kohonen beschriebene Al- 
gorithmus der selbstorganisierenden Karte (Self-Organizing Map, SOM), siehe z. B. [24]. 
Dieser lafit sich im Lichte der obigen Bemerkungen auch als VQ- Verfahren interpretieren: 
Von wesentlicher Bedeutung ist hierbei die Wahl des Bezugsraumes der Metrik, die der 
Kooperativitatsfunktion tp in Gleichung (1) zugrundegelegt wird. Beim Algorithmus der 
selbstorganisierenden Karte sowie bei anderen topologieerhaltenden Abbildungen bezieht 
sich die Metrik der Kooperativitatsfunktion ip auf einen vom Quellraum unabhangigen 
Zielraum. Die Bezeichnungen Quell- und Zielraum sind im Hinblick auf die Abbildung 

;:IR n ->lR", xho^x) (4) 

der Datenpunkte auf die Aktivierungen der Codebuchneuronen mit den Vereinbarungen 
von Abbildung 1 zu verstehen: Der Quellraum ist La. mit dem oben definierten Merkmals- 
raum, z. B. dem fft n identisch. Bei den selbstorganisierenden Karten lafit sich der Zielraum 
z. B. als Raum der physikalischen Positionen r j der Codebuchneuronen j interpretieren 
gemafi einer Abbildung 

r:IN->IR\ jHr(j). (5) 

Fiir die wissenschaftliche Entdeckung des Algorithmus der selbstorganisierenden Karte 
war die Interpretation im Hinblick auf neurophysiologische Modellvorstellungen wesent- 
lich. Aus diesem Grund wird der Zielraum, d. h. der Raum der r, := r(j) vielfach als 
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sogenannter Modellcortex bezeichnet. Ein typischer Fall ist beispielsweise die Anordnung 
von N Codebuchneuronen auf einem zweidimensionalen diskreten periodischen Gitter (al- 
so k = 2) in Form einer sensorischen Karte, die den Input von n Sinneszellen reprasentieren 
soil. Hierzu gibt es zahlreiche biologische Vorbilder, z. B. die retinotope Projektion von 
Fischen und Amphibien [12]. Kohonen fand nun eine Heuristik, mit der "die Neuronen 
j des Modellcortex ihre Empfindlichkeit auf Eingabesignale x so miteinander abstimmen 
konnen, da6 ihr Ansprechverhalten auf Signalmerkmale in gesetzmafiiger Weise mit ih- 
rem Ort auf dem Modellcortex variiert" (frei zitiert nach [36])- Zur neurophysiologischen 
Motivation sowie zur mathematischen Definition sei auf [36] verwiesen. 

Der physikalische Ort r der Codebuchneuronen bestimmt hierbei die Metrik fur die 
Kooperativitatsfunktion Deren konkxete Wahl als Gaufifunktion 

^(r,r'(x(t)),a( f )) := exp (- (r "^ft)^ )- ( 6 ) 
oder etwa als charakteristische Funktion auf einer fc-dimensionalen Hyperkugel um r'(x(£)) 

ist demgegeniiber von untergeordneter Bedeutung. r'(x(t)) definiert dabei bei gegebenem 
Reiz x(t) 6 'E n gemafi 

||x- w H || =min||x-w r || (8) 

das Neuron mit der hochsten Aktivitat, das sogenannte „Gewinnerneuron u . Zur Kenn- 
zeichnung eines Codebuchneurons wird hier direkt sein physikalischer Ort gemafi der Ab- 
bildung (5) beniitzt. Die Lernregel (1) wird somit zu 

w r (t + 1) = w r (t) + e(t) tf(r, r'(x(t)), a(t)) (x(t) - w r (t)). (9) 

a(t) bezeichnet hierbei den entsprechenden Kooperativitatsparameter aus Gleichung (6) 
bzw. (7). Er ist ein Mafi fur die „Reichweite" der Nachbarschaftsfunktion ip im Modell- 
cortex und wird i. a. wahrend des Lernverfahrens ebenso wie der Lernparameter e(t) nach 
einer geeigneten Heuristik verandert, z. B. analog zu Gleichung (2): 

a{t) = a(0) {^w) te[0 > tm ~ ] - (10 > 

Mit diesen Definitionen kann das Training einer selbstorganisierenden Karte in Anleh- 
nung an [36] folgendermafien als technischer Verfahrensablauf beschrieben werden: 

(i) Initialisierung: Wahle geeignete Anfangswerte fiir die Codebuchvektoren w^-. In 
Abwesenheit irgendwelcher a-priori-Information konnen die w,- z. B. zufailig gewahlt 
werden. 
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(ii) Stimuluswahl: Wahle zufallig einen Vektor x der eingegebenen Daten im Merk- 
malsraum. 

(iii) Response: Bestimme das Gewinnerneuron gemafi Gleichung (8). 

(iv) Adapt at ionsschritt: Fiihre einen Adaptationsschritt durch Veranderung der Co- 
debuchvektoren durch gemafi Gleichung (9). 

(v) Iteration: Wiederhole die Schritte (ii) - (iv), bis ein geeignetes Abbruchkriterium 
erfullt ist. 

Zu weiteren Details der selbstorganisierenden Karten sei auf [36] verwiesen, deren 
Offenbarung hiermit durch Bezugnahme in die vorliegende Anmeldung aufgenommen ist. 

2 Detaillierte Beschreibung der Erfindung, Teil I 

Der Erfindung liegt nunmehr die Aufgabe zugrunde, Daten verarbeitungen zu verbessern. 

Die Erfindung lost diese Aufgabe jeweils mit den Gegenstanden der Anspruche 1 6 
7, 16 und 17. 

Weitere bevorzugte Ausgestaltungen der Erfindung sind in den Unteranspruchen be- 
schrieben. 

Nach Anspruch 1 wird bei einem gattungsgemafien Verfahren zumindest ein Teil der 
eingegebenen Datenobjekte verwendet, urn die Anordnung von Nenronen im Anordnungs- 
raum festzulegen. Alternativ Oder zusatzlich werden fur die Datenverarbeitung erforderli- 
che, von den zu verarbeitenden Eingabedaten unabhangige Datenobjekte eingegeben, die 
als Datenobjekte des Erkundungsraumes verwendet werden. 

Nach Anspruch 6 werden bei einem gattungsgemafien Verfahren die Distanzen durch 
statistische Lernverfahren, lokale Modelle, Verfahren der schliefienden Statistik, und/oder 
durch eines der folgenden speziellen Berechnungsverfahren berechnet: Levenstein-Mafi, 
Mutual Information, Kullback-Leibler-Divergenz, in der Signalverarbeitung, insbesondere 
fur Biosignale, eingesetzte Koharenzmafie, LPC cepstral distance, Berechnungsverfahren, 
die Leistungsspektren zweier Signale in Beziehung setzen, wie z. B. die Itakura-Saito- 
Distanz, die Mahalanobis-Distanz und/oder Berechnungsverfahren im Hinblick auf die 
Phasensynchronisation von Oszillatoren. 

Nach Anspruch 7 wird bei einem gattungsgemafien Verfahren das Mafi fur die Qualitat 
der Zuordnung unter Verwendung von wenigstens einem Teil der eingegebenen und/oder 
berechneten Distanzobjekte berechnet. 

Zum auf die Datenverarbeitungseinrichtung gerichteten Patent anspruch wird erwahnt, 
dafi der Begriff "Datenverarbeitungseinrichtung" neben den heute ublichen (z. B. auf 
Halbleitertechnologien basierenden Computersystemen) auch alle zukunftigen Realisie- 
rungen (z. B. Quantencomputer, biologische, molekulare, atomare, optische, oder auf be- 
liebigen biologischen, chemischen oder physikalischen Prinzipien der Datenverarbeitung 
beruhenden Realisierungen etc.) von datenverarbeitenden Einrichtungen umfafit. 
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Zum auf das Computerprogrammprodukt gerichteten Patentanspruch wird erwahnt, 
dafi unter dem BegrifF "Computerprogrammprodukt" ein Computerprogramm oder Com- 
puterprogramm-Modul zu verstehen ist, welches durch Speicherung (zum Beispiel auf 
einem magnetischen Speichermedium oder in einem fliichtigen oder nicht-fluchtigen Halb- 
leiterspeicher eines Computers) oder durch Signale, die uber ein Netzwerk, insbesondere 
das Internet, versendet werden, verkorpert ist. Dabei braucht das Computerprogramm 
nicht in einer unmittelbar ausfuhrbaren Form vorliegen, vielmehr kann es auch in einer 
fiir die Installation auf der Datenverarbeitungseinrichtung vorbereiteten Form existieren, 
wobei es selbstverstandlich gepackt, verschliisselt, fur eine etwaige Versendung uber ein 
Netzwerk in Pakete zerteilt und mit ubertragungsbezogenen Headern versehen sein kann, 
etc. 

Die Erfindung sowie weitere MerkmaJe und Vorteile der Erfindung werden nunmehr 
anhand bevorzugter Ausfuhrungsbeispiele naher erlautert. 

Vorab wird in groben Zugen der Aufbau eines Computersystems als spezielles Aus- 
fiihrungsbeispiel einer Datenverarbeitungseinrichtung erlautert. In der Regel umfafit ein 
solches Computersystem einen Computer mit einem Monitor, einer Eingabetastatur und 
einer Computermaus. Anstelle des Monitors konnen beliebige andere Anzeigemittel, wie 
beispielsweise ein Projektor, verwendet werden. Anstelle der Computermaus konnen eben- 
falls beliebige andere Cursorpositionierungsmittel, wie beispielsweise ein Track-Ball, ein 
Touch-Pad, ein Maus-Stick, eine Touch-Screen oder Pfeiltasten einer Computertastatur 
eingesetzt werden. 

Der Computer weist einen ersten Datenspeicher in Form eines Plattenspeichers auf, 
wie etwa einer Festplatte, CD oder Diskette, und einen zweiten Datenspeicher in Form 
eines Haupt- und/oder Arbeitsspeichers. Zwischen dem Platten- und dem Arbeitsspeicher 
werden Daten ubertragen. Die Ubertragung erfolgt beispielsweise iiber iibliche Schnittstel- 
len und Bussysteme. Die Be- und/oder Verarbeitung von Daten erfolgt iiber eine CPU 
(Central Processing Unit). Auf dem Plattenspeicher werden Daten gespeichert, auf die 
der Computer iiber entsprechende Kontrollmittel zugreifen kann. Der Computer umfafit 
weiterhin eine Netzwerkkarte, mit der er beispielsweise mit einem zweiten Computer ver- 
bunden sein kann. Ferner kann der Computer ein sogenanntes Modem umfassen, mit dem 
er uber das Telefonnetz und seinen entsprechenden Provider mit dem Internet verbun- 
den werden kann. Der Computer kann auch Teil einer direkten PC-Verbindung, weiterer 
Computer eines Computer- Clusters oder Server eines Netzwerks sein. 

2.1 Verallgemeinerte Sichtweise topologieerhaltender Abbildun- 
gen 

Die fur das Verstandnis der Erfindung wesentlichen Begriffe werden im folgenden definiert: 
Ausgangspunkt ist die Datenverarbeitung durch sog. 'topologieerhaltende Abbildun- 
gen\ Hierbei handelt es sich um unterschiedliche, dem Stand der Technik entsprechende 
Datenverarbeitungsverfahren. Wichtige Beispiele sind: Selbstorganisierende Karte (Self- 
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Organizing Map (SOM)) [24] (wie in der Beschreibungseinleitung unter Abschnitt 1.2 be- 
schrieben), Generative Topographic Mapping (GTM) [4, 2], Neural Gas Algorithmus [28], 
unterschiedliche Formen topographischer Vektorquantisierer (z. B. Topographic Vector 
Quantizer (TVQ), Soft Topographic Vector Quantizer (STVQ), Soft Self-Organizing Map 
(SSOM), Kernel-Based Soft Topographic Mapping (STMK), Soft Topographic Mapping 
of Proximity Data (STMP)) [13, 14] sowie zahlreiche Varianten der genannten Verfahren. 

Trotz dieser Vielfalt besitzen topologieerhaltende Abbildungen wesentliche gemeinsa- 
me Punktions- und Strukturkomponenten, die in folgenden Definitionen charakterisiert 
werden: 

2.1.1 Allgemeine Definitionen 

1. Datenobjekte: Beliebige Daten ohne jegliche Beschrankungen, z. B. Mengen, Zah- 
len, Vektoren, Graphen, Symbole, Texte, Bilder, Signale, mathematische Abbildun- 
gen und deren Reprasentationen, z. B. Matrizen, Tensoren etc. sowie beliebige 
Kombinationen von Datenobjekten 

2. Raum: Beliebige Menge von Datenobjekten, z. B. auch Teil- oder Obermenge einer 
Mengen von Datenobjekten 

2.1.2 Punktionelle Definitionen 

• Eingabedaten: Rohdaten sind hierbei beliebige Datenobjekte, die der Datenverar- 
beitung zugefiihrt werden sollen, z. B. Mengen, Zahlen, Vektoren, Graphen, Symbo- 
le, Texte, Bilder, Signale, mathematische Abbildungen und deren Reprasentationen 
etc. Diese Rohdaten dienen entweder direkt als Eingabedaten oder werden durch 
geeignete Berechnungsverfahren in Eingabedaten iiberfiihrt. Im folgenden wird da- 
her nicht mehr zwischen Rohdaten und Eingabedaten unterschieden, sondern nur 
noch von Eingabedaten gesprochen. Wesentlich ist, dafi es sich bei diesen Eingabeda- 
ten um diejenigen Datenobjekte handelt, fur die eine Aufgabenstellung der mit der 
topologieerhaltenden Abbildung verbundenen Datenverarbeitung existiert, die also 
z. B. analysiert, visualisiert oder sonstwie verarbeitet werden sollen. Typische Auf- 
gabenstellungen fur die Datenverarbeitung dieser Eingabedaten sind z. B. Partitio- 
nierung, Clustering, Einbettung, Hauptkomponentenanalyse, Approximation, Inter- 
polation, Extrapolation, Dimensionsbestimmung, Visualisierung, Regelung etc. Fiir 
die Definition der Eingabedaten sind also zwei Aspekte wesentlich: Eingabedaten 
sind (i) vorgegebene Datenobjekte oder axis vorgegebenen Datenobjekten berechne- 
te Datenobjekte, fiir die eine Aufgabenstellung existiert, also etwas 'Gegebenes, mit 
dem etwas gemacht werden soil*. 

• Strukturhypothesen: Hierbei handelt es sich um Annahmen, z. B. iiber die Struk- 
tur der Eingabedaten. Strukturhypothesen sind Annahmen, die nicht ohne weitere, 



7 



WO 2004/017258 



PCT/EP2003/008951 



von den Eingabedaten der topologieerhaltenden Abbildung unabhangige Datenob- 
jekte, aus den Eingabedaten berechnet werden konnen. Dies bedeutet, daB die An- 
nahmen 

(i) ad hoc postuliert werden, wobei die Hypothesen unabhangig von den Eingabe- 
daten gewahlt werden oder 

(ii) ad hoc postuliert werden, wobei die Hypothesen durch berechenbare Eigen- 
schaften der Eingabedaten beeinfluflt, jedoch nicht vollstandig bestimmt wer- 
den oder 

(iii) erst durch Datenverarbeitung der Eingabedaten unter Beteiligung der topolo- 
gieerhaltenden Abbildung selbst, also unter Riickgriff auf Ausgabedaten (De- 
finition siehe unten) berechnet werden konnen 

oder durch beliebige Kombinationen dieser Vorgehensweisen getroffen werden. (iii) 
ist hier ein Sonderfall von (ii) insofern, als eine topologieerhaltende Abbildung Struk- 
turhypothesen erfordert. Typische Beispiele fur die Bildung von Strukturhypothesen 
sind: 

Ad (i) Wahl der Gittertopologie beim Kohonen-Algorithmus als zweidimensionales 
quadratisches Gitter mit vorgegebener Anzahl der Gitterknoten fur beide Di- 
mensionen unabhangig von den Eingabedaten 

Ad (ii) Wahl der Gittertopologie beim Kohonen-Algorithmus als zweidimensionales 
quadratisches Gitter mit vorgegebener Gesamtknotenzahl (ad-Zioc-Komponen- 
ten der Hypothese), wobei das Verhaltnis der Anzahl der Gitterknoten fur die 
beiden Dimensionen unter Beriicksichtigung des Verhaltnisses der Streuungen 
der Eingabedatenverteilung entlang der beiden Hauptverteilungsrichtungen er- 
folgt, wie sie durch die Berechnung der beiden grofiten Eigenwerte im Rahmen 
einer Hauptkomponentenanalyse der Eingabedatenverteilung bestimmt werden 
konnen (datengetriebene Komponente der Hypothese) 

Ad (iii) Wahl der Gittertopologie in Abhangigkeit von der Datenreprasentation durch 
die topologieerhaltende Abbildung selbst, z. B. in wachsenden selbstorganisie- 
renden Karten [44]; Wahl der Gittertopologie in Abhangigkeit von der durch 
die Verteilung der Codebuchvektoren induzierten Topologie, z. B. im Rahmen 
der durch einen minimal spanning tree der Codebuchvektoren induzierten To- 
pologie [24], oder durch die durch eine Ordnungsmetrik der Codebuchvektoren 
induzierten Toplogie beim Neural Gas Algorithmus [28]. 

Es handelt sich also bei Strukturhypothesen um zur Datenverarbeitung erforderliche, 
von den zu verarbeitenden Eingabedaten unabhangige Datenobjekte. "Unabhangig" 1 
bedeutet, dafi es kein Berechnungsverfahren gibt, mit dem diese Datenobjekte aus- 
schliefilich unter Verwendung von Eingabedaten der topologieerhaltenden Abbil- 
dung, d. h. ohne Riickgriff auf Strukturhypothesen, berechnet werden konnen. 
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• Ausgabedaten: Hierbei handelt es sich urn Datenobjekte, die als Ergebnis der 
Verarbeitung der Eingabedaten durch die topologieerhaltende Abbildung gewertet 
werden. Dies sind typischerweise 

(i) Codebuchobjekte und daraus berechnete Grofien, Definition siehe unten 

(ii) Strukturhypothesen, die durch Codebuchobjekte oder daraus berechnete Gro- 
fien motiviert sind 

Ausgabedaten sind keineswegs nur Codebuchobjekte oder Strukturhypothesen nach 
vollstandig abgeschlossenem Training einer topologieerhaltenden Abbildung, son- 
dern konnen einem beliebigen TVainingsstadium der topologieerhaltenden Abbildung 
entsprechen. 

2.1.3 Strukturelle Deflnitionen 

• Erkundungsraum: Raum der Menge von Datenobjekten, mit denen die topolo- 
gieerhaltende Abbildung trainiert wird, d. h. die prasentiert werden, d. h. die in die 
Berechnungsvorschrift der topologieerhaltenden Abbildung eingesetzt werden, um 
die Codebuchobjekte zu berechnen (z. B. x in Abschnitt 1.2). Diese Datenobjekte 
werden im folgenden Erkundungsobjekte genannt und aus dem Stand der Technik 
bedingten historischen Griinden auch synonym als Merkmalsvektoren bezeichnet. 
Man beachte, dafi diese Datenobjekte gemafi Stand der Technik den Eingabeda- 
ten der topologieerhaltenden Abbildung entsprechen. Ein wesentlicher Aspekt der 
Erfindung ist, da6 diese Entsprechung aufgehoben wird. 

• Anordnungsraum: Raum der Menge von Datenobjekten, die topologische Zusam- 
menhange definieren, wobei diese Zusammenhange fur die Berechnung der Ausgabe- 
daten der topologieerhaltenden Abbildung benutzt werden, z. B. im Rahmen einer 
Kooperativitatsfunktion gemafi Gleichung 9. Ein wichtiges Beispiel eines Anord- 
nungsraumes ist der Modellcortex beim Kohonen-Algorithmus, auch Gitter- oder 
Indexraum genannt. Die Datenobjekte des Anordnungsraumes werden im folgen- 
den als Anordnungsobjekte oder Neuronen bezeichnet. Gemafi dem Stand der 
Technik handelt es sich hierbei um Vektoren in metrischen Raumen. Diese werden 
aus dem Stand der Technik bedingten historischen Griinden im folgenden auch als 
Gittervektoren oder Positionsvektoren bezeichnet. Ein weiterer wichtiger Teilaspekt 
der Erfindung ist die Verallgemeinerung des BegrifEs der Anordnungsobjekte auf 
beliebige Datenobjekte, z. B. Distanzobjekte zwischen Datenobjekten (Definition 
des Begriffs Distanzobjekt siehe unten). Man beachte, dafi gemafi Stand der Technik 
die Datenobjekte des Anordnungsraumes durch Strukturhypothesen bestimmt wer- 
den. Ein wesentlicher Aspekt der Erfindung ist, dafi diese Entsprechung aufgehoben 
wird. Um die BegrifFe Anordnungsraum und Erkundungsraum zweifelsfrei abzugren- 
zen, werden in Abschnitt 2.3 die bei verschiedenen in der Literatur beschriebenen 
topologieerhaltenden Abbildungen getroffenen Festsetzungen aufgefuhrt. 
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• Ergebnisraum: Raum der Menge von Datenobjekten, die als Ergebnis der Verar- 
beitung der Eingabedaten gewertet werden (z. B. Codebuchvektoren einer selbstor- 
ganisierenden Karte). Diese werden im folgenden als Codebuchobjekte bezeichnet. 

Hierbei muB es sich nicht unbedingt um unterschiedliche Raume handeln. So ent- 
spricht beispielsweise der Ergebnisraum vielfach dem Erkundungsraum: Bei der selbstor- 
ganisierenden Karte nach Abschnitt 1.2 ist dies der Fall. Hier entstammen die Merk- 
malsvektoren i. a. dem gleichen Raum wie die Codebuchvektoren. Ein Gegenbeispiel 
ware beim Clustering von Beobachtungsfolgen durch Hidden-Markov-Modelle denkbar 
(z. B. [34]): Hier konnen beispielsweise einzelnen Codebuchobjekten spezifische Hidden- 
Markov-Modelle entsprechen, den Erkundungsobjekten jedoch die Beobachtungsfolgen. 
Als weiteres Beispiel kann auch der Anordnungsraum implizit aus dem Ergebnisraum 
definiert sein, z. B. als Ordnungsmetrik beim Neural-Gas- Algorithmus. 

Die zentrale Motivation fur die vorliegende Erfindung basiert nun auf einer Entflech- 
tung d& oben aufgefiihrten funktionellen und strukturellen Merkmale topologieerhaltender 
AbbUdungen: 

Entscheidend ist hierbei, dafi gemafi dem Stand der Technik die Eingabedaten Erkun- 
dungsobjekte sind, also dem Erkundungsraum entnommen werden und nicht Datenob- 
jekte des. Anordnungsraums definieren. Des weiteren beeinflussen die Strukturhypothesen 
den Anordnungsraum und nicht den Erkundungsraum. Gemafi Stand der Technik ist al- 
so den Eingabedaten der Erkundungsraum zugeordnet und den Strukturhypothesen der 
Anordnungsraum. 

Kerngedanke der erkundungsgefugten Gestaltbildung (eXploration Organized Mor- 
phogenesis, XOM) ist nun die teilweise Umkehrung dieser Zuordnungen: 

XOM-Definition: Verfahren und Vorrichtung zur Datenverarbeitung durch topolo- 
gieerhaltende Abbildungen, wobei im Gegensatz zum Stand der Technik sowohl der An- 
ordnungsraum als auch der Erkundungsraum beliebig durch Eingabedaten oder Strukturhy- 
pothesen bestimmt werden konnen. Insbesondere konnen im Gegensatz zum Stand der 
Technik Eingabedaten Datenobjekte des Anordnungraumes bestimmen, umgekehrt Struk- 
turhypothesen Datenobjekte des Erkundungsraumes bestimmen. 

Die Aussage, dafi Eingabedaten Datenobjekte des Anordnungsraumes "bestimmen" , 
bedeutet hierbei, dafi es ein Berechnungsverfahren gibt, mit dem Datenobjekte des Anord- 
nungsraumes aus Eingabedaten ohne Ruckgriff auf Strukturhypothesen berechnet werden 
konnen. 

Die Aussage, dafi Strukturhypothesen Datenobjekte des Erkundungsraumes "bestim- 
men" , bedeutet, dafi es kein Berechnungsverfahren gibt, mit dem diese Datenobjekte ohne 
Ruckgriff auf Strukturhypothesen aus Eingabedaten berechnet werden konnen. 

Im Gegensatz zum Stand der Technik unteriiegt die Wahl des Erkundungsraumes kei- 
nen Beschrankungen insofern, als es es sich bei seinen Datenobjekten neben Eingabedaten 
auch um Strukturhypothesen handeln kann. Umgekehrt unteriiegt auch im Gegensatz zum 
Stand der Technik die Wahl des Anordnungsraumes keinen Beschrankungen, als es sich bei 
seinen Datenobjekten neben Strukturhypothesen auch um Eingabedaten handeln kann! 
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Im Gegensatz zum Stand der Technik kann also den Eingabedaten der Anordnungs- 
raum und den Strukturhypothesen der Erkundungsraum zugeordnet werden. 

Ein besonderer Aspekt der Erfindung bestebt zusatzlich in der VeraUgemeinerung 
des oben definierten Begriffs der Anordnungsobjekte fiber die dem Stand der Technik 
entsprechende Interpretation als Vektoren in metrischen Raumen hinaus auf beliebige 
Datenobjekte, insbesondere auf Distanzobjekte zwischen Datenobjekten. 

Distanzobjekte sind hierbei definiert als Datenobjekte, die Ahnlichkeitsbeziehungen 
bzw. Distanzen zwischen Datenobjekten gemafi einem beliebigen Distanzmafi charakteri- 
sieren. Hierbei sind sowohl durch Metriken induzierte DistanzmaBe als auch insbesondere 
durch beliebige, nicht einer Metrik genugenden, Distanzmafie definierte Ahnlichkeitsbezie- 
hungen bzw. Dissimilaritaten eingeschlossen. Einige typische DistanzmaBe auf der Basis 
von Dissimilaritaten sind z. B. in [19] aufgefiihrt. Metrik wird hierbei in mathematischem 
Smne definiert, siehe z. B. [5], 

Zusammenfassend ergibt sich also als Abgrenzung vom Stand der Technik mit obieen 
Definitionen folgende 

2.2 Technische Beschreibung 

Das erfindungsgemaBe Verfahren (XOM) fur die Abbildung von zu verarbeitenden Einga- 
bedaten auf Ausgabedaten umfafit die folgenden Schritte: 

Die zu verarbeitenden Datenobjekte werden als Eingabedaten eingegeben. 

Die eingegebenen Datenobjekte werden mit Hilfe einer topologieerhaltenden Abbil- 
dung verarbeitet. Dabei werden 

Neuronen im Anordnungsraum angeordnet, indem gemafi einer ersten Alternative 
zumindest ein Teil der eingegebenen Datenobjekte verwendet wird, urn die Anord- 
nung von Neuronen im Anordnungsraum festzulegen. 

Weiterhin werden dabei den Neuronen Codebuchobjekte im Ergebnisraum zugeord- 
net. 

Schliefilich werden dabei Codebuchobjekte verarbeitet gemafi der Berechnungsvor- 
schrift einer topologieerhaltenden Abbildung unter Verwendung von Datenobjekten 
des Erkundungsraumes (siehe beispielsweise den in der Beschreibungseinleitung auf- 
gefiihrten technischen Verfahrensablauf fur das Training einer selbstorganisierenden 
Karte in Abschnitt 1.2). 

Gemafi einer zweiten Alternative werden dabei als Datenobjekte des Erkundungs- 
raums von den zu verarbeitenden Eingabedaten unabhangig eingegebene Datenob- 
jekte (Strukturhypothesen) verwendet. Die erste und die zweite Alternative konnen 
einzeln oder kombiniert angewandt werden. 
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Let2tendlich werden die verarbeiteten Codebuchobjekte als Ausgabedaten ausgege- 
ben. ^ w ° 



2.3 Beispiele der XOM-Definition fur einige topologieerhalten- 
de Abbildungen 

Die oben definierte XOM-Definition sei fur einige in der Literatur beschriebene topolo- 
gieerhaltende Abbildungen beispielhaft beschrieben. Es sei jedoch betont, dafi die Erfin- 
dung nicht auf diese Beispiele beschrankt ist, sondern sich durch Analogieschlufi unter 
Verwendung obiger Definitionen fur die Funktions- und Strukturkomponenten auf belie- 
bige topologieerhaltende Abbildungen anwenden lafit, audi wenn diese hier nicht explizit 
aufgefuhrt sind. Insbesondere sei betont, dafi die Erfindung unabhangig ist (i) von der kon- 
kreten Wahl freier Parametern topologieerhaltender Abbildungen, (ii) von der konkreten 
Wahl einer Kooperativitatsfunktion etwa im Sinne der Funktion if> gemafi Abschnitt 1 1 
(lii) von der konkreten Wahl bestimmter Annealing-Schemata, z. B. fur Lernparameter' 
etwa im Sinne von e in Abschnitt 1.1, (iv) von der Art der Datenprasentation, d. h. ob 
die Erkundungs- oder Anordnungsdatenobjekte sequentiell oder parallel im Sinne von 
'batch'-Algorithmen prasentiert werden, bei denen in einzelnen Trainingsschritten audi 
mehr als ein Datenobjekt verarbeitet werden kann. 

2.3.1 XOM fur die selbstorganisierende Karte 

Hierbei konnen gemafi XOM-Definition die Eingabedaten die Datenobjekte des Anord- 
nungraumes bestimmen, wohingegen Strukturhypothesen die Eigenschaften des Erkun- 
dungsraumes bestimmen konnen. Fur die selbstorganisierenden Karten gelten im Zusam- 
menhang mit XOM folgende Festsetzungen: Der Merkmalsraum der selbstorganisierenden 
Karte gemafi Abschnitt 1.1 entspricht dem Erkundungsraum, der Modellcortex der selbst- 
organisierenden Karte gemafi 1.1 entspricht dem Anordnungsraum. 

Im Modellcortex gemafi Abschnitt 1.2 werden also Eingabedaten prasentiert, d. h. der 
Modellcortex wird durch Eingabedaten ganz oder teilweise bestimmt. Handelt es sich bei- 
spielsweise bei den Eingabedaten Z um Vektoren in einem Jk-dimensionalen metrischen 
Raum also Z = {(*") | z " € B*,i/ 6 {l,...,p}, k,p e IN} so konnen die Positionsvekto- 
ren der selbstorganisierenden Karte mit diesen gleichgesetzt werden. Hierdurch ergibt sich 
i. a. eine durch Eingabedaten bestimmte Topologie des Anordnungsraumes, die im Gegen- 
satz zum Stand der Technik bei der Verwendung selbstorganisierender Karten nicht einem 
diskreten periodischen Gitter entspricht. Das Training der selbstorganisierenden Karte er- 
folgt dann mit Datenobjekten eines beliebig gewahlten Erkundungsraumes. Dieser kann 
einer Strukturhypothese entsprechen, jedoch auch direkt iiber Eingabedaten definiert sein 
Mit den Konventionen aus Abschnitt 1.2 kann also beispielsweise folgende Vereinbarung 
getroffen werden: r„ = z". Als Erkundungsraum wird nun eine beliebige Menge von Date- 
nobjekten festgelegt, beispielsweise Datenvektoren auf einer beliebigen Mannigfaltigkeit 
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im IR n , die z. B. einer Gleichverteilung, einer Gaufiverteilung oder sonstwie in der Wahr- 
scheinlichkeitstheorie beschriebenen Verteilung geniigen. Denkbar ist grundsatzlich auch 
jede beliebige andere Festlegung des Erkundungsraumes, sei sie nun von den Eingabedaten 
abhangig oder im Sinne einer Stmkturhypothese nicht unmittelbar durch Eingabedaten 
eindeutig berechenbar. 

Neben der oben angefuhrten Entflechtung der strukturellen und funktionellen De- 
finitionen der an topologieerhaltenden Abbildungen beteiligten Datenraume besteht ein 
besonderer Aspekt der Erfindung zusatzlich in der Verallgemeinerung des oben definierten 
Begriffs der Anordnungsobjekte iiber die dem Stand der Tecbnik entsprechende Interpreta- 
tion als Vektoren in metrischen Raumen hinaus auf beliebige Datenobjekte, insbesondere 
auf Distanzobjekte zwischen Datenobjekten. Im Fall der selbstorganisierenden Karte be- 
deutet dies, dafl die Topologie des Modellcortex durch beliebige Dissimilaritaten definiert 
sein kann, die keiner Metrik im mathematischen Sinne geniigen miissen. Die Anordnungs- 
objekte (Neuronen) miissen also nicht Vektoren im H n reprasentieren. 

2.3-2 XOM fur Generative Topographic Mapping 

Zur Prazisierung der Begriffe Anordnungsraum und Erkundungsraum seien bei Gene- 
rative Topographic Mapping (GTM) folgende Festsetzungen getroffen, die sich auf die 
Publikation [3] beziehen: Der Raum, der in [3] als "latent space" bezeichnet wird, ent- 
spricht dem Anordnungsraum, seine Datenobjekte werden in dieser Publikation als "latent 
variables x" bezeichnet. Die Datenobjekte des Erkundungsraumes werden in [3] mit der 
Variable t bezeichnet. 

2.3.3 XOM fiir topographische Vektorquantisierer 

Zur Prazisierung der Begriffe Anordnungsraum und Erkundungsraum seien bei den in der 
Literatur beschriebenen topographischen Vektorquantisierern (z. B. Topographic Vector 
Quantizer (TVQ), Soft Topographic Vector Quantizer (STVQ), Soft Self-Organizing Map 
(SSOM), Kernel-Based Soft Topographic Mapping (STMK), Soft Topographic Mapping 
of Proximity Data (STMP)) [13, 14]) folgende Festsetzungen getroffen, die sich auf die 
Publikation [14] beziehen: Die Datenobjekte, die in [14] als "nodes" mit den Variablenbe- 
zeichnungen r bzw. s bezeichnet werden, entsprechen Datenobjekten des Anordnungsrau- 
mes. Die Datenobjekte, die in [14] als "data vectors x(t)" bezeichnet werden, entsprechen 
Datenobjekten des Erkundungsraumes. 

Durch AnalogieschluB ist es moglich, auch in anderen, hier nicht beschriebenen Be- 
rechnungsvorschriften fur topologieerhaltende Abbildungen, Erkundungsraum und An- 
ordnungsraum voneinander abzugrenzen. 
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3 Detaillierte Beschreibung der Erfindung, Teil II 

In der nachfolgenden Aufstellung werden zusatzliche durch das Patent zu schiitzende 
Verfahren, Vorrichtungen und Anwendungen beschrieben: 

1. (a) XOM-Definition: Verfahren und Vorrichtung zur Datenverarbeitung durch 
topologieerhaltende Abbildungen, wobei im Gegensatz zum Stand der Tech- 
nik sowohl der Anordnungsraum als auch der Brkundungsraum beliebig durch 
Eingabedaten oder Strukturhypothesen bestimmt werden konnen. Insbesondere 
konnen im Gegensatz zum Stand der Technik Eingabedaten Datenobjekte des 
Anordnungraumes bestimmen, umgekehri Strukturhypothesen Datenobjekte des 
Erkundungsraumes bestimmen. 

Die Aussage, dafi Eingabedaten Datenobjekte des Anordnungsraumes "bestim- 
men", bedeutet hierbei, dafi es ein Berechnungsverfahren gibt, mit dem Date- 
nobjekte des Anordnungsraumes aus Eingabedaten ohne Ruckgriff auf Struk- 
turhypothesen berechnet werden konnen. 

Die Aussage, dafi Strukturhypothesen Datenobjekte des Erkundungsraumes 
"bestimmen 1 ', bedeutet, dafi es kein Berechnungsverfahren gibt, mit dem diese 
Datenobjekte ohne Ruckgriff auf Strukturhypothesen aus Eingabedaten berech- 
net werden konnen. 

Im Gegensatz zum Stand der Technik unterliegt die Wahl des Erkundungsrau- 
mes keinen Beschrankunen insofern, als es es sich bei seinen Datenobjekten 
neben Eingabedaten auch um Strukturhypothesen handeln kann. 
Hierbei mufi es sich ausdriicklich nicht um Daten handeln, die auf einer ein- 
zelnen Mannigfaltigkeit im Ht n g^ichverteilt sind, sondern in beliebigen Da- 
tenraumen beliebig verteilt sein konnen. Beispiele fur interessante Verteilungs- 
muster sind unten in 5 aufgefuhrt. Diese Verteilungsmuster konnen auch im 
Laufe eines Trainingsvorgangs oder im Rahmen einer Folge von Trainings- 
vorgangen der topologieerhaltenden Abbildung dynamisch veranderlich gewahlt 
werden, z. B. unter Beriicksichtigung der aktuell oder in einem fniheren Stadi- 
um durch die topologieerhaltende Abbildung gelieferten Ausgabedaten bzw. Er- 
gebnisse, z. B. Codebuchobjekte oder die durch sie induzierte Topologie, wo- 
durch insbesondere dynamische Strukturhypothesen generiert werden konnen. 
Es sei auch betont, dafi die gewahlten Verteilungen im Erkundungsraum sta- 
tisch oder dynamisch von den Eingabedaten beeinflufit werden konnen. 
Umgekehrt unterliegt auch im Gegensatz zum Stand der Technik die Wahl des 
Anordnungsraumes keinen Beschrankungen, als es sich bei seinen Datenobjek- 
ten neben Strukturhypothesen auch um Eingabedaten handeln kann! 
Im Gegensatz zum Stand der Technik kann also den Eingabedaten der An- 
ordnungsraum und den Strukturhypothesen der Erkundungsraum zugeordnet 
werden. 



14 



WO 2004/017258 PCT/EP2003/008951 



Ein besonderer Aspekt der Erfindung besteht zusatzlich in der Verallgemeine- 
rung des oben definierten Begriffs der Anordnungsobjekte fiber die dem Stand 
der Technik entsprechende Interpretation als Vektoren in metrischen Raumen 
hinaus auf beliebige Datenobjekte, insbesondere auf Distanzobjekte zwischen 
Datenobjekten. 

Distanzobjekte sind hierbei definiert als Datenobjekte, die Ahnlichkeitsbezie- 
hungen bzw. Distanzen zwischen Datenobjekten gemafi einem beliebigen Di- 
stanzmafi charakterisieren. ffierbei sind sowohl durch Metriken induzierte Di- 
stanzmafie als auch insbesondere durch beliebige nichtmetrische Distanzmafie 
definierte Ahnlichkeitsbeziehungen bzw. Dissimilaritaten eingeschlossen. Einige 
typische Distanzmafie auf der Basis von Dissimilaritaten sind z. B. in [19] auf- 
gefiihrt. Metrik wird hierbei in mathematischem Sinne definiert, siehe z. B. [5] 
Der Einsatz von XOM zur Datenverarbeitung kann auch insbesondere erfol- 
gen, wenn zum "Draining mehr als eine zusammenhangende Datenverteilung 
im Erkundungsraum benutzt wird; wenn zum Training keine uniforme Da- 
tenverteilung im Erkundungsraum benutzt wird; wenn die Datenobjekte oder 
Teilmengen davon im Anordnungsraum nicht einer Metrik im mathematischen 
Sinne geniigen; wenn die zum Training benutzten Datenverteilungen im Erkun- 
dungsraum nicht konvex sind; wenn die Datenobjekte oder Teilmengen davon 
im Anordnungsraum oder im Erkundungsraum nicht der euklidischen Geome- 
tric geniigen oder deren Distanz durch beliebige Dissimilaritatsmafie definiert 
ist; wenn fur das Training Distanzen von beliebigen Datenobjekten verwen- 
det werden, beispielsweise geodatische Distanzen oder einer Rangmetrik; wenn 
die topologieerhaltende Abbildung nicht der sequentiellen Forrmilierung einer 
selbstorganisierenden Karte nach Kohonen entspricht; wenn die zum Training 
der topologieerhaltenden Abbildung verwendete Verteilung der Trainingsdaten 
im Erkundungsraum nicht die Dimension 2 oder 3 hat; wenn die zum Training 
der topologieerhaltenden Abbildung verwendete Verteilung im Erkundungs- 
raum keine Kugel in 3D ist; wenn die Trainingvorschrift der topologieerhal- 
tenden Abbildung fur sich fur unterschiedliche Codebuchobjekte unterscheiden 
kann, vgl. auch Punkt lm; wenn fur die Visualisierung der Ergebnisse nicht 
alle Verbindungen bzw. topologischen Beziehungen gezeichnet werden, fur die 
Distanzen bekannt sind oder berechnet wurden; 

(b) Irregulare Struktur des Anordnungsraumes: Ein wesentlicher Aspekt 
der Erfindung ist, dafi bei XOM die dem Stand der Technik entsprechende 
Beschrankung des Anordnungsraumes auf diskrete periodische Gitter im R n , 
z. B. regulare kubische oder hexagonale Gitter, aufgehoben ist, insbesondere 
wenn Emgabedaten verwendet werden, um die Eigenschaften, z. B. die To- 
pologie, des Anordnungsraumes festzulegen und/oder Strukturhypothesen, um 
die Eigenschaften des Erkundungsraumes festzulegen. Besonders geschiitzt ist 
die Verwendung von Anordnungsraumen mit fraktaler lokaler oder globaler 
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Dimension. 

(c) ^Combination von irregularer Struktur des Anordnungsraumes mit 
XOM: Besonders sei betont, dafl diejenigen Verfahren und Vorrichtungen ein 
besonderer Aspekt der Erfindung sind, bei denen eine irregulare Struktur des 
Anordnungsraumes gemafi lb vorliegt und zugleich Eingabedaten (und nicht 
nur Strukturhypothesen) verwendet werden, um die Eigenschaften dieses An- 
ordnungsraumes, z. B. seine Topologie festzulegen. 

(d) Bestimmung des Erkundungsraumes durch Strukturhypothesen: Ein 
weiterer wesentlicher Aspekt sind Verfahren und Vorrichtungen, bei denen 
Strukturhypothesen (und nicht nur Eingabedaten) verwendet werden, um die 
Eigenschaften des Erkundungsraumes festzulegen. 

(e) Beliebige Distanzmafie, z. B. paarweise Dissimilaritaten: Ein besonde- 
rer Aspekt der Erfindung besteht in der Verallgemeinerung des oben definierten 
Begriffe der Anordnungsobjekte iiber die dem Stand der Technik entsprechende 
Interpretation als Vektoren in metrischen Raumen hinaus auf beliebige Daten- 
objekte, insbesondere auf Distanzobjekte zwischen Datenobjekten. Interessant 
ist dies insbesondere, wenn die Anordnungsobjekte durch Eingabedaten fest- 
gelegt werden. 

Distanzobjekte sind hierbei definiert als Datenobjekte, die Ahnlichkeitsbezie- 
hungen bzw. Distanzen zwischen Datenobjekten gemafi einem beliebigen Di- 
stanzmafi charakterisieren. Hierbei sind sowohl durch Metriken induzierte Di- 
stanzmafie als auch insbesondere durch beliebige nichtmetrische Distanzmafie 
definierte Ahnlichkeitsbeziehungen bzw. Dissimilaritaten eingeschlossen. Me- 
trik wird hierbei in mathematischem Sinne definiert, siehe z. B. [5]. Ein wich- 
tiges Beispiel ist die Verwendung einer Rangmetrik (z. B. in Analogie zur Defi- 
nition der Rangmetrik zwischen dem Gewinnerneuron und den anderen Code- 
buchneuronen beim Neural Gas Algorithmus). Einige typische Distanzmafie auf 
der Basis von Dissimilaritaten sind z. B. in [19] aufgefiihrt. Distanzen zwischen 
Datenobjekten, also Distanzobjekte konnen also grundsatzlich durch beliebige 
Rechenverfahren oder auch durch Strukturhypothesen definiert sein. 
Es sei auch betont, dafi es fur die Erfindung nicht erforderlich ist, dafi beziiglich 
ernes Distanzmafies alle paarweisen Distanzen zwischen den Eingabedatenob- 
jekten bzw. Anordnungsobjekten zu berechnen bzw. zum Training der topo- 
logieerhaltenden Abbildung zu verwenden. Auch ist es nicht erforderlich, dafi 
solche Distanzen bzgl. aller Paare von Datenobjekten definiert sein mussen. Es 
genugt, eine beliebige Teilmenge der berechenbaren paarweisen Distanzen zu 
verwenden. Diese Teilmenge kann dem jeweiligen Ziel bzw. den Umstanden der 
Datenverarbeitung angepafit werden, ggf. auch dynamisch. Eine solche Anpas- 
sung ist m zahlreichen Situationen geboten, beispielsweise (i) beim sog. Spar- 
seness Annealing (siehe unten), (ii) bei der Visualisierung von Graphen bei 
denen mcht alle Kanten zwischen den Knoten bekannt sind oder in die Berech- 



16 



WO 2004/017258 _ _ PCT/EP2003/008951 



nung einbezogen werden sollen, (iii) bei Molekulardynamiksimulationen, bei 
denen die durch die kovalente Struktur des Molekuls vorgegebenen Zwangs- 
bedingungen oder die zwischen einzelnen Atomen wirkenden Krafte nur eine 
echte Teilmenge von paarweisen Distanzen zwischen den Atomen definiert ist 
bzw. fiir das Training der topologieerhaltenden AbbUdung genutzt werden soli 
(iv) bei Anwendungen in der Robotik, z. B. im Rahmen der inversen Kinema- 
tik, bei denen z. B. durch Zwangsbedingungen nur eine echte Teilmenge der 
paarweisen Distanzen zwischen den Robotergelenken definiert ist bzw. fur das 
Training der topologieerhaltenden AbbUdung genutzt werden soil. 
Besonders interessant ist der Fall sparlich codierter Distanzmatrizen. 

(f) Nichtmetrische Anordnungsraume und Eingabedatenraume: Beson- 
ders sei noch einmal betont, dafi im Gegensatz zum Stand der Technik Verfah- 
ren und Vorrichtungen in die Erfindung einbezogen sind, bei denen zur Fest- 
legung der Topologie des Anordnungsraumes im mathematischen Sinne nicht- 
metrische Distanzmafie verwendet werden, fur die z. B. fiir eine echte oder 
unechte Teilmenge der paarweisen Distanzen die Symmetrierelation und/oder 
die Dreiecksungleichung nicht erfiillt sind/ist. Die Anordnungsobjekte konnen 
also im Gegensatz zum Stand der Technik einen nichtmetrischen Raum definie- 
ren, d. h. nicht einem metrischen Raum gemafi der Definition in [5] entsprechen 
Besonders geschiitzt ist dieser Teilaspekt der Erfindung, wenn zur Festlegung 
der Topologie des Anordnungsraumes nicht nur Strukturhypothesen, sondern 
auch Eingabedaten verwendet werden. 

(g) Nichteuklidische XOM Der Anordnungsraum, Erkundungsraum oder Er- 
gebmsraum oder beliebige Kombinationen dieser Raume konnen einer nichteu- 
klidischen, z. B. hyperbolischen Geometrie geniigen. 

(h) Lokale Nachbarschaften, Beschleunigung durch schnelle Suche nach- 
ster Nachbarn, sparliche Distanzmatrizen: Fur das Training der topolo- 
gieerhaltenden Abbildung konnen insbesondere nur oder nur zum Teil Date- 
nobjekte aus lokalen Nachbarschaften der Datenobjekte im Anordnungsraum 
und/oder Erkundungsraum und/oder Ergebnisraum benutzt werden, d. h. hier- 
durch erzeugte sparlich kodierte Distanzmatrizen verwendet werden. Hierzu 
konnen insbesondere Beschleunigungsstrategien zur Definition der lokalen Nach- 
barschaften, z. B. zur Suche nach den k nachsten Nachbarn, eingesetzt werden 
wie sie dem Stand der Technik (vgl. z. B. [30], [29] und dort zitierte Literatur 
sowie [9]) oder dieser Patentschrift entsprechen, insbesondere im Hinblick auf 
unten folgende Punkte 5 und 12. 

(i) Fraktale: Ein besonderer Aspekt der Erfindung ist, dafi bei Verfahren und 
Vorrichtungen gemafi obiger XOM-Definition als Anordnungsraum Datenver- 
teilungen verwendet werden konnen, die nach in der Literatur (z. B [27] und 
dort zitierte Literatur, [16]) oder in dieser Patentschrift beschriebenen Dimen- 
sionsbestimmungsverfahren lokal oder global eine fraktale Dimension besitzen. 
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Lokal bedeutet hier und im folgenden, dafi die Dimensionsbestimmung fur ein- 
zelne Datenobjekte durchgefiihrt wird, wohingegen global, dafi die Dimensions- 
bestimmung fur mehr als ein Datenobjekt durchgefiihrt wird, z. B. fur einen 
gesamten Datensatz. Umgekehrt konnen Datenverteiiungen mit fraktaler Di- 
mension auch den Erkundungsraum definieren. Besonders geschiitzt sind Ver- 
fahren und Vorrichtungen, bei denen der Anordnungsraum Datenverteiiungen 
mit fraktaler Dimension enthalt, wobei diese Datenverteiiungen Eingabedaten 
sind, ebenso Verfahren und Vorrichtungen, bei denen der Einbettungsraum Da- 
tenverteiiungen mit fraktaler Dimension enthalt, wobei diese Datenverteiiungen 
Stnikturhypothesen sind. Besonders geschiitzt ist auch die Kombination aus 
beiden Moglichkeiten. 

0) Nichtorientierbare Flachen, Moebiusband und Kleinsche Flasche: So- 
wohl der Anordnungsraum als auch der Erkundungsraum konnen Datenvertei- 
iungen enthalten, bei denen die durch die Datenobjekte im jeweiligen Raum 
erzeugte Topologie eine nichtorientierbare Flache im Sinne der Differential- 
geometrie beschreibt, z. B. ein Mobiusband oder eine Kleinsche Flasche. Be- 
sonders geschiitzt sind Verfahren und Vorrichtungen, bei denen der Anord- 
nungsraum derartige Datenverteiiungen enthalt, wobei diese Datenverteiiungen 
Eingabedaten sind, ebenso Verfahren und Vorrichtungen, bei denen der Erkun- 
dungsraum derartige Datenverteiiungen enthalt, wobei diese Datenverteiiungen 
Strukturhypothesen sind. Besonders geschiitzt sind auch die Kombinationen 
aus beiden Moglichkeiten. 

(k) Stochastische XOM: Sowohl der Anordnungsraum als auch der Erkundungs- 
raum konnen Datenverteiiungen enthalten, die Ergebnis eines Zufallsexperi- 
mentes sind. Besonders geschiitzt sind Verfahren und Vorrichtungen, bei denen 
die durch die Datenobjekte im Anordnungsraum induzierte Topologie durch ein 
Zufallsexperiment beeinfluflt wird, ebenso Verfahren und Vorrichtungen, bei 
denen Datenobjekte des Erkundungsraumes im Sinne einer Strukturhypothe- 
se durch ein Zufallsexperiment bestimmt werden, sowie Kombinationen beider 
Moglichkeiten. 

(1) Hinzufiigen oder Weglassen von Datenobjekten im Anordnungsraum: 
Auf der Basis der XOM-Definition konnen Verfahren und Vorrichtungen kon- 
struiert werden, bei denen vor oder wahrend eines TVainingsvorganges oder 
vor oder wahrend einer Folge von Trainingsvorgangen der topologieerhalten- 
den Abbildung zum Anordnungsraum eines oder mehrere neue Datenobjekte, 
insbesondere auch Distanzobjekte, hinzugefugt werden und die topologieerhal- 
tende Abbildung partiell oder vollstandig nachtrainiert wird. Insbesondere lafit 
sich dieses Vorgehen zur Interpolation, Extrapolation oder Approximation neu- 
er Datenobjekte durch die topologieerhaltende Abbildung verwenden. Umge- 
kehrt konnen in analoger Weise auch Datenobjekte, insbesondere auch Distan- 
zobjekte, aus dem Anordnungsraum entfernt oder beliebig verandert werden, 
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bevor die topologieerhaltende Abbildung partiell oder vollstandig nachtrainiert 
wird. Insbesondere konnen Mafie zur lokalen oder globalen Abbildungsqualitat, 
z. B. im Sinne von 2 verwendet werden, um Datenobjekte des Anordnungsrau- 
mes zielgerichtet zu erzeugen, zu entfernen oder zu verandera. 

(m) Codebuchobjektspezifische Variation der Berechnungsvorschrift: Es 
sei betont, da6 auf der Basis der XOM-Definition insbesondere auch Verfahren 
und Vorrichtungen entwickelt werden konnen, bei denen beim Training der to- 
pologieerhaltenden Abbildung nicht alle zu den Datenobjekten im Anordnungs- 
raum gehorenden Codebuchobjekte durch die gleiche Berechnungsvorschrift 
trainiert werden. Vielmehr ist es haufig moglich und/oder geboten, far unter- 
schiedliche Codebuchobjekte unterschiedliche Berechnungsvorschriften anzu- 
wenden oder Parameter der gleichen Berechnungsvorschrift fur unterschiedli- 
che Codebuchobjekte zu variieren. Beides kann auch dynamisch innerhaJb eines 
einzelnen Trainingsvorganges oder in einer Folge mehrerer Trainingsvorgange 
erfolgen. Insbesondere sind auch Verfahren und Vorrichtungen moglich, bei 
denen nicht jedem Datenobjekt des Anordnungsraumes genau ein Codebuch- 
objekt zugeordnet ist. Vielmehr konnen unterschiedlichen Datenobjekten des 
Anordnungsraumes unterschiedliche Anzahlen und Typen von Codebuchob- 
jekten zugeordnet werden, wobei diese Anzahlen und Typen auch dynamisch 
veranderlich gewahlt werden konnen, z. B. im Hinblick auf das spezifische Da- 
tenverarbeitungsproblem, auf den jeweiligen Trainihgszustand der topologieer- 
haltenden Abbildung, auf die aktuell oder friiher erreichte Abbildungsqualitat 
oder auf beliebige, z. B. durch das Datenanalyseproblem induzierte Zusatzbe- 
dingungen. Es kann auch Datenobjekte des Anordnungsraumes geben, denen 
standig oder vorubergehend kein Codebuchobjekt zugeordnet wird. Ein wich- 
tiges Beispiel fur die dynamische, codebuchobjektspezifische Anpassung der 
Berechnungsvorschrift ist die Anpassung der Kooperativitatsfunktion selbst- 
organisierender Karten im Hinblick auf Mafie der lokalen Topologieerhaltung, 
etwa im Sinne von Verfahren wie [7] 

(n) Datenobjekt spezifische Variation der Eigenschaften, z. B. Berech- 
nungsvorschrift fiir Datenobjekte des Erkundungs- und/oder Anord- 
nungsraumes: Die in lm beschriebene datenobjektspezifische Variabilitat gilt 
sinngemafi auch fur unterschiedliche Objekte des Erkundungsraumes und/oder 
des Anordnungsraumes, z. B. kann die Berechnungsvorschrift der topologieer- 
haltenden Abbildung datenobjektspezifisch variieren. Sie kann insbesondere 
auch dynamisch veranderlich gewahlt werden, z. B. im Hinblick auf das spezi- 
fische Datenverarbeitungsproblem, auf den jeweiligen Trainingszustand der to- 
pologieerhaltenden Abbildung, auf die aktuell oder friiher erreichte Abbildungs- 
qualitat oder auf beliebige, z. B. durch das Datenanalyseproblem induzierte 
Zusatzbedingungen. Auch konnen Datenobjekte des Erkundungs-, Ergebnis- 
und/oder Anordnungsraumes, z. B. im Hinblick auf die soeben genannten Kri- 
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terien, dynamisch veranderlich sein, z. B. konnen neue Datenobjekte dynamisch 
erzeugt, bestehende Datenobjekte dynamisch entfernt oder beliebig verandert 
werden. 

(o) Uberwachte XOM: Das Training der topologieerhaltenden Abbildung kann 
in Abhangigkeit von Datenobjekten oder Eigenschaften von Datenobjekten er- 
folgen, die mit den Datenobjekten des Anordnungsraumes assoziiert sind. Inter- 
essant ist der Fall, dafi Datenobjekten des Anordnungsraumes weitere Daten- 
objekte assoziiert sind, die im Anordnungsraum nicht auftreten bzw. Datenob- 
jekte des Anordnungsraumes Zusatzeigenschaften besitzen, die fiir die Bestim- 
mung des Anordnungsraumes standig oder voriibergehend nicht beriicksichtigt 
werden. Ein besonders wichtiger Fall liegt vor, wenn diese zusatzlichen Date- 
nobjekte oder Eigenschaften von Datenobjekten im Sinne von Funktionswer- 
ten interpretiert werden, die Datenobjekten des Anordnungsraumes zugeordnet 
werden. Hier wiederum ist besonders der Fall wichtig, bei dem diese zusatz- 
lichen Datenobjekte oder Eigenschaften von Datenobjekten dazu verwendet 
werden, den Erkundungsraum, den Anordnungsraum, den Ergebnisraum oder 
die der topologieerhaltenden Abbildung zugrundeliegende Datenverarbeitungs- 
vorschrift oder deren Parameter in zielgerichteter Weise, insbesondere daten- 
objektspezifisch, zu verandern. Hierdurch lassen sich unterschiedlichste, auf 
XOM basierende Verfahren und Vorrichtungen zum iiberwachten Lernen 'kon- 
struieren, insbesondere z. B. zum Interpolieren, Extrapolieren, Approximieren 
oder zur sonstwie gearteten Verarbeitung von Funktionen konstruieren. Es sei 
betont, dafi es sich bei den Datenobjekten des Anordnungsraumes sowie den 
zusatzlichen mit diesen assoziierten Datenobjekten bzw. Objekteigenschaften 
sowohl urn Eingabedaten als auch um Strukturhypothesen handeln kann. 

(p) XOM unter Zusatzbedingungen: Ein besonders wichtige XOM-Variante 
besteht darin, dafi das Training der topologieerhaltenden Abbildung durch 
Zusatzbedingungen beeinflufit wird, die beliebige Eigenschaften des Erkun- 
dungsraumes, des Anordnungsraumes oder des Ergebnisraumes beeinflussen, 
z. B. im Hinblick auf das spezifische Datenverarbeitungsproblem, auf den je- 
weiligen Trainingszustand der topologieerhaltenden Abbildung, auf die aktuell 
oder fruher erreichte Abbildungsqualitat oder auf beliebige, z. B. durch das 
Datenanalyseproblem induzierte Zusatzbedingungen. So ist es beispielsweise 
moglich, die Wanderung einer echten oder unechten Teilmenge der Codebuch- 
objekte im Ergebnisraum statisch oder dynamisch einzuschranken oder sonst- 
wie zu beeinflussen. 

(q) Dynamisch veranderlicher Erkundungsraum, wachsende XOM-Ab- 
bildungen: Besonders hervorzuheben sind XOM-Realisierungen, bei denen der 
Erkundungsraum bzw. seine Datenobjekte im Verlaufe eines TVainingsvorgangs 
oder im Verlaufe einer Folge von Trainingsvorgangen der topologieerhaltenden 
Abbildung zielgerichtet oder nicht zielgerichtet beeinflufit werden, d. h. dyna- 
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misch veranderlich sind, z. B. im Hinblick auf Kriterien der aktuell oder friiher 
erreichten lokaJen oder globalen Qualitat der topologieerhaltenden Abbildung, 
z. B. im Sinne von 2. Besonders wichtig ist der Fall von XOM-Abbildungen 
mit wachsenden, schrumpfenden, sich teilenden oder sonstwie global oder lokal 
veranderlichen Erkundungsraumen, bei denen sukzessiv Strukturhypothesen, 
z. B. iiber Eingabedaten verbessert werden sollen. 

(r) Umskalierung der Distanzen im Anordnungsraum, Spaxseness Anne- 
aling: Besonders interessante XOM-Verfahren und -Vorrichtungen verandern 
wahrend des Trainingsvorgangs oder im Laufe einer Folge wiederholter Trai- 
ningsvorgange der topologieerhaltenden Abbildung die Topologie des Anord- 
nungsraumes, z. B. durch eine mathematisch formulierbare Berechnungsvor- 
schrift. Diese kann beispielsweise von der aktuell oder in einem fruheren Stadi- 
um erreichten AbbildungsquaJitat oder von der aktuell erreichten Anzahl von 
Trainingsschritten oder Trainingsvorgangen abhangen. Wenn die Topologie des 
Anordnungsraumes durch eine echte oder unechte Teilmenge der paarweisen 
Distanzen zwischen den Datenobjekten des Anordnungsraumes reprasentiert 
wird, so kann hierbei eine globale, d. h. alle verwendeten Distanzen betreffen- 
de, oder auch eine lokale, d. h. individuell angepafite Umskalierung einzelner 
Distanzen vorgenommen werden. Durch diese Umskalierung kann beispielswei- 
se erreicht werden, dafi der relative Anteil grofier Distanzen an der Gesamtzahl 
der verwepdeten Distanzen im Verlauf eines oder mehrerer Trainingsvorgange 
der topologieerhaltenden Abbildung zunimmt. Beeinflussen diese grofien Di- 
stanzen das TYaining der topologieerhaltenden Abbildung nur wenig, so konnen 
diese fur das weitere Training vernachlassigt werden. Dies entspricht einer zu- 
nehmenden funktionellen "Ausdunnung" der Distanzmatrix, d. h. die Anzahl 
der beim Training der topologieerhaltenden Abbildung zu beriicksichtigenden 
Distanzen nimmt ab. Hierdurch ergibt sich u. a. eine Reduktion des Rechen- 
aufwandes. Dieses Vorgehen sei als "Sparlichkeitsabkuhlung" oder "Spaxseness 
Annealing" bezeichnet. Eines beliebig vieler denkbarer Schemata ist zum Bei- 
spiel folgendes: Seien dij(t) die Distanzen zwischen Datenobjekten i und j des 
Anordnungsraumes im Trainingsstadium t. Seien dij die urspriinglichen Distan- 
zen. Durch Umskalierung gemafi 



mit a > 0 kann beispielsweise erreicht werden, dafi dy(t) > fiir dij > a(t) 
gilt. Hierbei kann a(t) als eine mit t monoton abnehmende Funktion gewahlt 
werden (z. B. im Sinne eines Abkiihlungsschemas wie etwa nach Gleichung 
(10)). Durch Variation von a kann die Starke der nichtlinearen Verzerrung 
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beeinflufit werden. Fur die Umskalierungsvorschrift 



ergibt sich fur a » 1 ein Verhalten, bei dem die Distanzen fur d {j < nahezu 
unverandert bleiben, hingegen fur dij > a(t) jedoch deutlich hochskaliert wer- 
den. Unter Umstanden kann es axich sinnvoll sein, nur Distanzen dij in einem 
bestimmten Grofienintervall [a, b] mit a, b e IR, a, 6 > 0 fur das Training der 
topologieerhaltenden Abbildung zu beriicksichtigen. Hierzu konnte man z. B. 
setzen: 



Es sei betont, dafi die Umskalierung der Distanzen nicht auf diese oder ahnli- 
che Rechenvorschriften beschrankt ist, sondern problemangepafit im Hinblick 
auf die jeweilige Datenverarbeitungssituation beliebig erfolgen kann. Auch ist 
es nicht erforderiich, bei den vom Trainingsstadium der topologieerhaltenden 
Abbildung abhangigen Umskalierungen diese in jedem Trainingsschritt jeweils 
neu zu berechnen. Vielmehr kann es geniigen, dies erst wieder nach einer Folge 
mehrerer Trainingsschritte zu tun, wodurch sich eine erhebliche Reduktion des 
Rechenaufwandes ergeben kann. 

(s) Iteration: Verfahren und Vorrichtungen gemafi XOM-Definition konnen auch 
iterativ angewandt werden, indem Datenobjekte des Ergebnisraums einer ge- 
mafi XOM trainierten topologieerhaltenden Abbildung ganz oder teilweise da- 
zu benutzt werden, den Anordnungsraum einer weiteren topologieerhaltenden 
Abbildung oder eines neuen TVainingsschritts oder Trainingsvorgangs dersel- 
ben topologieerhaltenden Abbildung zu definieren oder zumindest zu beein- 
flussen. Dies sei an einem Beispiel erlautert: Wird beispielsweise durch XOM 
eine nichtlineare Einbettung einer Datenverteilung im IR*, welche als Anord- 
nungsraum dient, in eine Datenverteilung im ]R n , welche als Erkundungsraum 
dient, vorgenommen, wobei fc,n G IN, so erhalt man im einfachsten Fall als 
Ergebnisraum eine Menge von Codebuchvektoren im IR*. Diese konnen nun 
direkt oder durch eine geeignete Berechnungsvorschrift dazu benutzt werden, 
den Anordnungsraum einer neuen XOM-Abbildung festzulegen, die beispiels- 
weise die durch diese Codebuchvektoren induzierte Topologie auf eine Daten- 
verteilung im IR m , m 6 IN abbildet, welche nunmehr als Erkundungsraum einer 
topologieerhaltenden Abbildung verwendet wird. Aus dem Ergebnisraum der 
ersten XOM-Anwendung wird also der Anordnungsraum einer weiteren XOM- 
Anwendung erzeugt. Dieses Verfahren lafit sich beliebig iterieren. Ein wichtiger 
Spezialfall besteht darin, dafi der Ergebnisraum bzw. Erkundungsraum einer- 
seits und der Anordnungsraum andererseits wechselseitig ihre Rollen tauschen. 
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Dies kann ebenfalls iterativ durchgefiihrt werden. Selbstverstandlich unterliegt 
die Wahl der zugrundenliegenden Datenobjekte, Raume und Distanzmafie kei- 
nen Beschrankungen. 

(t) Selbstorganisation, Selbstregeneration, Selbstreproduktion, Morpho- 
genese, verteilte Wissensreprasentation: Durch XOM konnen leistungsfa- 
hige Verfahren und Vorrichtungen konstruiert werden, die charakteristische Ei- 
genschaften lebender Systeme besitzen, insbesondere Selbstregeneration, Selbst- 
reproduktion und Selbststabilisierung, Lokalitat der Informationsverarbeitung 
bzw. verteilte Wissensreprasentation. Ein Beispiel, wie solche Systeme kon- 
struiert werden konnen sei im folgenden erlautert: Ausgangspunkt sind Daten- 
objekte, die im folgenden als "ZeUen" bezeichnet werden: diese reprasentieren 
Teile eines Gesamtsystems, das im folgenden als "Organismus" bezeichnet wird. 
Eine Zelle besitzt folgende Datenobjekte, Eigenschaften, Verfahren bzw. Vor- 
richtungen, im folgenden "Elemente" genannt: 

• Information, die erforderlich ist, urn den Anordnungsraum einer topolo- 
gieerhaltenden Abbildung teilweise oder vollstandig zu konstruieren. Die- 
se entspricht dem "Bauplan" des Gesamtorganismus. Dieser mufi nicht 
vollstandig in jeder Zelle vorhanden sein. 

• Verfahren und Vorrichtung, mit der die Zelle bestimmen kann, welches oder 
welche Datenobjekte des Anordnungsraumes, Erkundungsraumes und/oder 
Ergebnisraumes einer topologieerhaltenden Abbildung in welcher Weise ihr 
zugeordnet sind: die hierdurch erhaltene Information wird im folgenden 
1 Position' im jeweiligen Raum genannt. 

• Verfahren und Vorrichtung, mit der die Zelle ihre Positionen im Anord- 
nungsraum, Erkundungsraum und/oder Ergebnisraum oder auch andere 
Information anderen Zellen mitteilen kann bzw. die diesbeziiglich durch 
andere Zellen mitgeteilte Information verwerten V^nn 

• Verfahren und Vorrichtung, mit der die Zelle unter Verwendung einer 
XOM-Abbildung eine neue Position im Ergebnisraum ermitteln kann 

• Verfahren und Vorrichtung, mit der die Zelle ihre Position im Ergebnis- 
raum verandern kann, z. B. im Hinblick auf die unter Verwendung einer 
XOM-Abbildung ermittelte neue Position im Ergebnisraum 

• Verfahren und Vorrichtung, mit der die Zelle die Konsistenz (siehe unten) 
ihrer Positionen in den unterschiedlichen Raumen uberpriifen und ggf. kor- 
rigieren kann 

Optional konnen auch folgende Elemente vorliegen: 

• Verfahren und Vorrichtung zur Selbstkopie der Zelle 

• Verfahren und Vorrichtung zur Selbstzerstorung der Zelle 

• Verfahren und Vorrichtung zur Veranderung der Datenobjekte oder Eigen- 
schaften der Zelle 
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Es sei betont, dafi eine Zelle nicht alle aufgefiihrten Elemente besitzen mufi. 
Audi sei betont, dafi die aufgefiihrten Elemente nicht unbedingt "lokal", d. h. in 
der einzelnen Zelle, reprasentiert sein miissen. Vielmehr ist es denkbar, dafi die 
Zelle auch auf globale, d. h. mehr als eine Zelle betreffende Reprasentationen 
obiger Elemente zuriickgreifen kann. Dies kann insbesondere fur die Konstruk- 
tion technischer Systeme durch XOM Vorteile bieten. 

Das "Leben", d. h. der Funktionszustand des Organismus wird nun wesent- 
lich durch XOM bestimmt. Als typisches Beispiel sei hierzu eine sequentielle 
Vorgebensweise skizziert, bei der alle Zellen an alien Schritten teilnehmen. Die- 
se Bedingungen miissen jedoch nicht erfullt sein, d. h. es konnen in analoger 
Weise Vorgehensweisen entwickelt werden, bei denen nicht alle Zellen an alien 
Schritten teilnehmen und/oder eine parallele, d. h. gleichzeitig mehrere Date- 
nobjekte betreffende Datenverarbeitung stattfindet. Die folgende Darstellung 
ist durch das Vorgehen bei selbstorganisierenden Karten motiviert, lafit sich 
jedoch einfach auf andere topologieerhaltende Abbildungen ubertragen. 
Zunachst wird ein Datenobjekt des Erkundungsraumes einer topologieerhalten- 
den Abbildung ausgewahlt, im folgenden "Reiz" genannt. Jede Zelle bestimmt 
nun ihre Position im Erkundungsraum relativ zu diesem Reiz. Beispielsweise 
ist es denkbar, dafi die Zelle ihre Distanz (bzgl. eines beliebigen Distanzmafies) 
im Erkundungsraum zu diesem Reiz ermittelt. Die Zellen teilen sich gegenseitig 
Information uber ihre relative Position zum Reiz mit. Die Zellen vergleichen 
nun diese Informationen und ermitteln eine Zelle, deren Position im Erkun- 
dungsraum am besten mit dem Reiz iibereinstimmt, die sog. "Gewinnerzelle". 
Diese Gewinnerzelle teilt nun alien Zellen ihre Position im Anordnungsraum 
mit. Die Zellen vergleichen nun diese Information mit ihrem Wissen uber den 
Anordnungsraum. Entscheidend ist, dafi dieses Wissen lokal in den einzelnen 
Zellen verfugbar ist (verteilte Wissensreprasentation). Dieses Wissen entspricht 
einem "Bauplan" des Organismus, der partiell oder vollstandig in jeder Zelle 
vorhanden ist. Hierdurch ist es den Zellen moglich, die Position der Gewinner- 
zelle im Anordnungsraum zu ermitteln. Durch Vergleich ihrer eigenen Position 
im Anordnungsraum mit der Position der Gewinnerzelle im Anordnungsraum 
konnen die einzelnen Zellen ihre Distanz (bzgl. eines beliebigen Distanzmafies) 
von der Gewinnerzelle im Anordnungsraum bestimmen. Die Zellen verwen- 
den nun diese Distanz, um durch XOM eine Aktualisierung ihrer Position im 
Ergebnisraum durchzufuhren. Mit Darbietung eines neuen Reizes beginnt der 
Vorgang von neuem. 

Wichtig ist, dafi die Zellen (je nach verwendeter topologieerhaltender Abbil- 
dung) ihre (relativen) Positionen im Erkundungs-, Anordnungs- bzw. Ergeb- 
nisraum bestimmen konnen. Dies kann z. B. durch Informationsaustausch in 
lokalen Umgebungen der Zellen in den verschiedenen Raumen erfolgen. Die 
Zellen uberprufen die Konsistenz der Positionen, die sie in den verschiedenen 
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Raumen einnehmen, und korrigieren diese entsprechend, entweder standig oder 
gelegentlich. 

Die Positionsbestimmung in den einzelnen Raumen kann z. B. folgendermafien 
realisiert werden: Alle Zellen erzeugen ein oder mehrere "Produkte", z. B. Fel- 
der, chemische Substanzen oder beliebige Datenobjekte. Diese verteilen sich 
nach geeigneten Berechnungsvorschriften im jeweiligen Raum. Ggf. klingen sie 
in Abhangigkeit von der raumlichen und/oder zeitlichen Distanz zu ihrer Erzeu- 
gung ab bzw. verandern ihre Eigenschaften. Aufgrund der lokalen Bestimmung 
der resultierenden Feldstarken, Substanzkonzentrationen oder Eigenschaften 
durch die einzelnen Zellen konnen diese ihre Position im jeweiligen Raum be- 
stimmen. Denkbar ist hier z. B. auch eine raumrichtungsabhangige Integra- 
tion iiber die Starke, Konzentration oder Eigenschaften der Produkte, die in 
einzelnen Zellen oder durch Informationsaustausch in lokalen Zellverbanden 
durchgefiihrt werden kann. 

Eine elegante Form der Positionsbestimmung im Anordnungsraum kann auch 
durch XOM realisiert werden: Hierbei werden die Positionen der Zellen im 
Erkundungsraum bzw. Ergebnisraum als Anordnungsraum einer neuen topo- 
logieerhaltenden Abbildung verwendet und umgekehrt. Die Rollen von Erkun- 
dungsraum bzw. Ergebnisraum und Anordnungsraum werden also im Sinne 
von Is vertauscht. Nach Training der neuen topologieerhaltenden Abbildung 
erhalt man als Ergebnis Schatzwerte der Zellpositionen im Anordnungsraum, 
die mit den bislang in den Zellen gespeicherten Zellpositionen im Anordnungs- 
raum verglichen werden konnen. Letztere konnen dann ggf. geeignet aktuali- 
siert werden. 

In Abhangigkeit von derartigen Positionsbestimmungen und Konsistenzpriifun- 
gen konnen dann auch lokale oder globale Korrekturen der Zellzahl oder Zel- 
leigenschaften im Organismus vorgenommen werden. Hierzu konnen ggf. neue 
Zellen erzeugt oder existierende Zellen zerstort oder verandert werden. Ein glo- 
bales Korrekturmafi ist zum Beispiel die Gesamtzahl der Zellen im Vergleich 
zur Gesamtzahl der Datenobjekte im Anordnungsraum. 

Wesentlich ist, dafi derartige korrekturmotivierende Konsistenzmafie aus Krite- 
rien der Abbildungsqualitat topologieerhaltender Abbildungen gewonnen wer- 
den konnen, wie sie z. B. in 2 aufgefuhrt werden. Insbesondere sind hierbei 
Mafie zur Beurteilung der lokalen oder globalen TopologieerhaJtung wichtig. 
Wird beispielsweise, wie oben beschrieben, eine Positionsbestimmung der Zel- 
len im Anordnungsraum durch XOM vorgenommen, so kann Wissen iiber die 
Staxke und/oder die Art lokaler Topologieverletzungen dazu verwendet werden, 
um lokale Korrekturen im Hinblick auf Zellzahl und Zelleigenschaften durch- 
zufiihren. Wird umgekehrt durch XOM eine Positionsbestimmung der Zelle im 
Erkundungs- bzw. Ergebnisraum durchgefiihrt, so konnen auf der Basis derar- 
tiger Konsistenzmafie ebenfalls entsprechende Korrekturen, z. B. im Sinne von 
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lm, In oder lq. • 

Eine charakteristische Eigenschaft derartiger auf XOM basierender Systeme ist, 
dafi bei gleicher oder ahnlicher Zellausstattung jede Zelle grundsatzlich jeden 
Ort bzw. jede Funktion im Organismus iibemehmen kann, d. h. insbesonde- 
re auch verandern kann. Die Gesamtstruktur und -funktion des Organismus 
bleibt hierbei im wesentlichen unverandert. Die einzelnen Zellen in derartigen 
Verfahren und Vorrichtungen erinnern somit an "pluripotente Stammzellen" in 
der Biologie. Allerdings kann diese Flexibility der Zellen auch eingeschrankt 
werden, was irn Rinblick auf die Ahnlichkeit mit biologischen Systemen auch 
als "Zelldifferenzierung" bezeichnet werden kann. 

Der Erkundungsraum kann am ehesten als "Korper" interpretiert werden im 
Sinne eines Raumes, den der Organismus einnimmt. Ist dieser veranderlich oder 
aufieren Einfliissen unterworfen, so kann sich der Organismus durch adaptives 
TVaining der topologieerhaltenden Abbildung gemafi XOM selbst stabilisieren, 
bzw. an die neuen Bedingungen des Lebensraumes anpassen. 
Werden Teiie derartiger auf XOM basierender Systeme entfernt bzw. zerstort, 
so konnen sich die Systeme unter RiickgrifFauf die oben beschriebenen Vorgange 
regenerieren. Werden solche Systeme in zwei oder mehrere Teile geteilt, so 
konnen sich aus den einzelnen Teilen wieder gesamte Organismen entwickeln. 
Diese Systeme verfugen also uber die Fahigkeit zur Selbstregeneration und 
Selbstreproduktion, wobei Selbstregeneration als Voraussetzung fur die Selbstre- 
produktion durch Teilung des Organismus gewertet werden kann. Aus jeweils 
kleinen Teilen des Organismus bzw. wenigen oder einzelnen Zellen kann ein 
neues System entstehen, das alle Eigenschaften des Gesamtorganismus besitzt, 
u. a. auch seine Form bzw. GestcJt. Somit kann man durch XOM Verfahren 
und Vorrichtungen mit der Fahigkeit zur Gestaltbildung bzw. Morphogenese 
konstruieren bzw. auch Selbstorganisationsprozesse in Natur und Technik si- 
mulieren. Der Schutzanspruch dieses Patents bezieht sich auf beides, sowohl 
fur einzelne Systeme als auch Ensembles solcher Systeme. 
Offensichtlich sind zahlreiche Erweiterungen derartiger Systeme denkbar: So 
konnen Prinzipien aus dem Bereich der Biologie, insbesondere Genetik oder der 
evolutionaren Algorithmen verwendet werden, um oben beschriebene Verfahren 
und Vorrichtungen mit bestimmten Eigenschaften zu "zuchten" bzw. weiter zu 
verbessern, sowohl auf der Ebene der einzelnen Zellen als auch der Organismen. 
So ware z. B. auch eine zwei- oder mehrfache Reprasentation des Anordnungs- 
raumes als "Bauplan" des Gesamtorganismus in jeder einzelnen Zelle denkbar 
in Analogie zum diploiden Chromosomensatz in somatischen Zellen bei biolo- 
gischen Organismen sowie die Moglichkeit geschlechtlicher Fortpflanzung der 
Gesamtorganismen oder Zellen mit entsprechenden Vererbungsschemata. 
Weiter sei betont, dafi die Informationsverarbeitungin den beschriebenen XOM- 
Systemen auch hierarchisch erfolgen kann. Zum Beispiel kann das TVaining 
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der topologieerhaltenden Abbildung - ggf. in Abhangigkeit vom jeweiligen Sy- 
stemzustaxid bzw. Organisationsniveau, z. B. einer geeignet zu definierenden 
'Lebensphase des Organismus' - unterschiedliche Hierarchiestufen durchlaufen, 
z. B. durch die Auswahl von Teilmengen der zu reprasentierenden Datenobjek- 
te des Anordnungsraumes Oder durch geeignete Berechnungsverfahren aus der 
Verteilung der Datenobjekte im Anordnungsraum gewonnene Mengen 'prototy- 
pischer Datenobjekte'. Hierzu kann beispielsweise eine Vektorquantisierung des 
Anordnungsraumes durchgefuhrt werden. Insbesondere kann es hilfreich sein, 
in den einzelnen Zellen Informationen iiber unterschiedliche Anordnungsraume 
zu reprasentieren, die je nach Systemzustand fur die XOM- Abbildung verwen- 
det werden konnen. Hierdurch oder durch ahnliche Verfahren ist es moglich, 
zunachst die Grobstruktur und erst in spateren Phasen die Feinstruktur des 
Organismus zu entwickeln. 

Ein wesentliches Kriterium fur ein Verfahren oder eine Vorrichtung im Sinne 
eines oben beschriebenen XOM-Organismus ist, dafl Datenobjekten des Anord- 
nungsraumes Information iiber den Anordnungsraum zugeordnet wird, die iiber 
das Datenobjekt selbst hinausweist, d. h. zunachst nicht im Datenobjekt ent- 
halten ist (z. B. iiber die Topologie des Anordnungsraumes). Diese Information 
dient als lokal gespeicherte Information iiber die Struktur des Gesamtsystems 
im Sinne eines vollstandigen oder unvollstandigen "Bauplanes". Dieser kann 
u. a. dazu genutzt werden, "Zellen" in obigem Sinne bzw. zugeordnete Daten- 
objekte des Anordnungsraumes, Ergebnisraumes und/oder Erkundungsraumes 
zu erzeugen, zu entfernen oder zu verandern. 

(u) Hierarchische XOM: Im Rahmen von XOM kann das Training der topolo- 
gieerhaltenden Abbildung unterschiedliche Hierarchiestufen durchlaufen, bei- 
spielsweise durch die Auswahl von Teilmengen der durch die topologieerhal- 
tende Abbildung zu reprasentierenden Datenobjekte des Anordnungsraumes 
oder durch geeignete Berechnungsverfahren aus der Verteilung der Datenob- 
jekte im Anordnungsraum gewonnene Mengen l prototypischer Datenobjekte'. 
Diese konnen z. B. durch Vektorquantisierung des Anordnungsraumes erzeugt 
werden, 

(v) Dynamische XOM: Wie bereits erwahnt, ist es moglich, die Datenobjekte 
oder deren Verteilung im Anordnungsraum oder die Datenobjekte oder de- 
ren Verteilung im Erkundungsraum wahrend eines Trainingsvorganges oder im 
Laufe einer Polge von Trainingsvorgangen zu verandern. 

(w) Testphase bei bereits trainierter XOM: Schliefilich konnen nach abge- 
schlossenem Training einer im Sinne von XOM verwendeten topologieerhalten- 
den Abbildung neue Datenobjekte zum Anordnungsraum, Erkundungsraum 
oder Ergebnisraum hinzugefugt und unter Verwendung dieser topologieerhal- 
tenden Abbildung ohne deren neues Training verarbeitet werden, zum Beispiel 
zum Zwecke der Inter- oder Extrapolation, Approximation, Einbettung, har- 
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ten oder unscharfen Clusterzuweisung, Klassifikation, iiberwachten Abbildung 
durch Punktionen oder Relationen, Visualisierung oder Einsortierung oder im 
Rahmen von Selbstorganisations- oder Morphogeneseprozessen. Hierbei konnen 
z. B. auch Verfahren gemafi Stand der Technik zum Einsatz kommen. 

Qualitatsbeurteilung: Bedeutsam sind Verfahren und Vorrichtungen zur Bestim- 
mung der lokalen oder globalen AbbUdungsqualitat der gemafi 1 verwendeten topo- 
logieerhaltenden Abbildungen. Diese kann beispielsweise untersucht werden durch: 

(a) Topologie- und Verteilungserhaltung: Hierzu eignet sich die Bestimmung 
von Mafien lokaler oder globaler Topologieerhaltung entsprechend dem Stand 
der Technik, z. B. durch das sog. topographische Produkt gemafi [1] oder 
vergleichbare Mafie, wie sie etwa in (24], Kapitel 10.3 und der dort zitier- 
ten Literatur beschrieben sind. Eine Qualitatsbeurteilung kann auch erfolgen 
durch Untersuchungen von Mafien der Verteilungserhaltung, z. B. sog. "Ver- 
zerrungsexponenten", die die Dichte der Codebuchobjekte im Ergebnisraum in 
Abhangigkeit von der Dichte der Datenobjekte im Erkundungsraum oder der 
Datenobjekte im Anordnungsraum beschreiben konnen, z. B. im Sinne von f8l 
oder [35] 1 ' 

(b) Verzerrungsmafle: Die Untersuchung der XOM-Abbildungsqualitat kann er- 
folgen durch Bestimmung von Verzerrungsmafien, wie z. B. der Kostenfunktion 
nichtUnearer Einbettungsverfahren, z. B. der Sammon-Abbildung [40] oder von 
sog. "Minimal Wiring" -Kostenhmktionen [32], [11] oder durch vergleichende 
Bestimmung der Rangordnung nachster Nachbarn im Anordnungs- und Er- 
gebnisraum, z. B. nach Prasentation eines Datenobjektes im Erkundungsraum 
im Sinne von [7] 

(c) Distanzplot: Die Untersuchung der XOM-Abbildungsqualitat kann erfolgen 
durch Erzeugen und/oder Analyse von sog. "Distanzplots": Hierbei werden die 
Distanzen zwischen Datenobjekten im Ergebnisraum (oder Erkundungsraum) 
gegen die Distanzen korrespondierender Datenobjekte im Anordnungsraum 
graphisch aufgetragen, z. B. die paarweisen Distanzen der Codebuchvektoren 
im Merkmalsraum einer selbstorganisierenden Karte gegenuber den paarwei- 
sen Distanzen der korrespondierenden Positionsvektoren im Modellcortex. Die 
korrespondierenden Distanzen in den unterschiedlichen Raumen konnen jedoch 
auch ohne graphische Darstellung vergleichend analysiert werden. Auch wenn 
dies der Fall ist, wird der Einfachheit im folgenden dennoch von "Distanzplot" 
gesprochen. Es ist nicht notwendig, jeweils alle berechenbaren paarweisen Di- 
stanzen in den einzelnen Raumen zu verwenden. Die Analyse kann z. B. erfol- 
gen durch qualitative visuelle Betrachtung und Interpretation des Distanzplots 
durch Berechnung von Mafien fur die "Breite" des Distanzplots, von Korrelati- 
onsmafien zwischen den Distanzen in den unterschiedlichen Raumen, z. B. von 
Korrelationskoeffizienten oder Kovarianzen oder durch Verfahren zur globalen 
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(d. h. auf alle Distanzpaare bezogenen) und lokalen (d. h auf einzelne Di- 
stanzpaare bezogenen) Dimensionsbestimmung des Distanzplots, z. B. im Sin- 
ne der Hausdorff-Dimension [18] oder Grassberger-Procaccia-Dimension [16]. 
Insbesondere sei betont, dafi derartige Analysen selektiv fur unterschiedliche 
Grofienordnungen der Distanzen im Erkundungs-, Ergebnis-, und Anordnungs- 
raum durchgefuhrt werden konnen. Insbesondere konnen durch selektive Ana- 
lyse des Distanzplots fur grofie Distanzen Faltungsphanomene der topologie- 
erhaltenden Abbildung (wie etwa in [36], Kapitel 14 beschrieben), fur kleine 
Distanzen lokale Topologieverletzungen beobachtet und quantitativ ausgewer- 
tet werden. Die genannten oder ahnliche Mafie konnen auch aJs Instrumente 
zur vergleichenden Bestimmung der Dimensionen von Datenverteilungen in den 
unterschiedlichen Raumen verwendet werden. 

(d) Ergebnisplot bzw. Erkundungsplot: Eine Qualitatsbeurteilung fur XOM 
kann audi erfolgen durch Erzeugen und/oder Analysieren eines Plots der Co- 
debuchobjekte im Ergebnisraum bzw. diesen Codebuchobjekten entsprechen- 
den Datenobjekten im Erkundungsraum, insbesondere wenn Ergebnis- und 
Erkundungsraum ubereinstimmen. Insbesondere konnen hierbei Datenobjekte 
und/oder topologische Beziehungen der zu den Codebuchobjekten korrespon- 
dierenden Datenobjekte des Anordnungsraumes durch Verbindungslinien oder 
sonstige graphische Hilfsmittel (Linien oder graphische Objekte unterschiedli- 
cher Dicke, Farbe, Schattierung, Struktur, Textur) visualisiert und/oder ana- 
lysiert werden. Besonders geschiitzt ist eine derartige Darstellung, wenn sie 
mit der Darstellung von Datenobjekten des Erkundungsraumes und/oder Er- 
gebnisraumes bzw. deren topologischen Beziehungen kombiniert wird. Ganz 
besonders ist hier auch die Darstellung der lokalen Grofie von Qualitatsma- 
Ben der verwendeten topologieerhaltenden Abbildung durch beliebige graphi- 
sche Hilfsmittel hervorzuheben, z. B. bzgl. Verzerrung, Topologie- oder Ver- 
teilungserhaltung sowie beziiglich aus Distanzplots und Qualitatsbeurteilung 
durch iiberwachtes Lernen gewonnenen Informationen. Da die genannten Dar- 
stellungsarten ein wesentlicher Aspekt der explorativen Analyse des Anord- 
nungsraumes bzw. seiner Topologie durch XOM ist, sollen sie durch das Pa- 
tent besonders geschiitzt sein, insbesondere wenn der Anordnungsraum ganz 
oder teilweise durch Eingabedaten bestimmt ist oder wenn der Erkundungs- 
bzw. Ergebnisraum ganz oder teilweise durch Strukturhypothesen bestimmt 
ist. Die Ausfiihrungen dieses Punktes gelten allgemein fur Datenobjekte und 
fiir aus Datenobjekten neu berechnete Datenobjekte zugehorige Raumbereiche. 

(e) Anordnungsplot: Umgekehrt konnen Datenobjekte des Erkundungsraumes 
und/oder des Ergebnisraumes im Anordnungsraum visualisiert werden. Insbe- 
sondere konnen hierbei Datenobjekte und/oder toplogische Beziehungen der 
zu den Datenobjekten im Erkundungs- und/oder Ergebnisraum durch Verbin- 
dungslinien oder sonstige graphische Hilfsmittel (Linien oder graphische Objek- 
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te unterschiedlicher Dicke, Farbe, Schattierung, Stniktur, Textur) visualisiert 
und/oder analysiert werden. Besonders geschiitzt ist eine derartige Darstel- 
lung, wenn sie mit der DarsteUung von Datenobjekten des Anordnungsraumes 
bzw. deren topologischen Beziehungen kombiniert wird. Ganz besonders ist 
hier auch die Darstellung der lokalen Grofie von Qualitatsmafien der verwen- 
deten topologieerhaltenden Abbildung durch beliebige graphische Hilfsmitte) 
hervorzuheben, z. B. bzgl. Verzerrung, Topologie- oder Verteilungserhaltung 
sowie beziiglich aus Distanzplots und Qualitatsbeurteilung durch iiberwachtes 
Lernen gewonnenen Informationen. Da die genannten Darstellungsarten ein 
wesentlicher Aspekt der explorativen Analyse des Erkundungsraumes, des Er- 
gebnisraumes bzw. deren Eigenschaften durch XOM ist, sollen sie durch das 
Patent besonders geschiitzt sein, insbesondere wenn der Erkundungs- bzw. Er- 
gebnisraum ganz oder teilweise durch Strukturhypothesen bestimmt ist oder 
wenn der Anordnungsraum ganz oder teilweise durch Eingabedaten bestimmt 
ist. Die Ausftihrungen dieses Punktes gelten allgemein fur Datenobjekte und 
fur aus Datenobjekten neu berechnete Datenobjekte bzw. Datenobjekten zu- 
geordnete Raumbereiche. 

(f ) Qualitatbeurteilung durch iiberwachtes Lernen: Die XOM-Abbildungs- 
qualitat kann auch dadurch bestimmt werden, dafi sog. uberwachte Lernver- 
fahren eingesetzt werden, um die unterschiedlichen, an der topologieerhalten- 
den Abbildung beteiligten Datenraume aufeinander abzubilden. Hierbei wird 
ein Lernverfahreh bzw. eine Lernvorrichtung durch Paare von Datenobjekten 
trainiert, wobei ein Paar aus einem oder mehreren Quelldatenobjekten sowie 
einem oder mehreren Zieldatenobjekten besteht. Die Quelldatenobjekte sind 
hierbei einem Quellraum, die Zieldatenobjekte einem Zielraum entnommen. Ist 
das TVaining fortgeschritten oder abgeschlossen, kann in einer sog. Testphase 
bei Vorgabe von evtl. neuen Quelldatenobjekten ohne Zugehorige Zieldaten- 
objekte unter Riickgriff auf die trainierte Abbildung eine Schatzung fur zuge- 
ordnete Zieldatenobjekte erhalten werden. Typische uberwachte Lernverfahren 
sind z. B. unterschiedliche neuronale Netze (z. B. Multilayer Peceptrons [38], 
Radiale-Basisfunktionen-Netzwerke [33], Support Vector Machines [6] sowie 
zahlreiche Varianten dieser Verfahren), lokale Modelle (z. B. [43], [29]), z. B. lo- 
kale Durchschnittsmodelle oder lokale lineaxe Modelle, sowie samtliche in der 
Literatur beschriebenen Approximations- oder Interpolationsverfahren. Auch 
topologieerhaJtende Abbildungen konnen fur iiberwachtes Lernen eingesetzt 
werden, z. B. durch Aufspaltung des Erkundungsraumes in Quell- und Zielraum 
bei selbstorganisierenden Karten gemafi Stand der Technik oder durch Aufspal- 
tung des Anordnungsraumes in Quell- und Zielraum bei XOM (vgl. auch 7). 
Legt man die drei Raume Erkundungsraum, Anordnungsraum und Ergebnis- 
raum zugrunde, so kann grundsatzlich jeder der drei Raume als Quellraum oder 
als Zielraum dienen. Falls man Quell- und Zielraum unterschiedlich wahlt, er- 
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geben sich somit zunachst sechs Moglichkeiten fur das iiberwachte Training 
von Abbildungen zwischen den drei Datenraumen. Allerdings sind auch be- 
liebige Verkettungen dieser Abbildungen denkbar, wobei der Quellraum auch 
dem Zielraum entsprechen kann. Die Abbildungsqualitat von XOM kann nun in 
der Testphase der iiberwacht trainierten Abbildung dadurch bestimmt werden, 
daB der geeignet zu quantifizierende Abbildungsfehler, also die Abweichung 
zwischen 1st- und Sollwerten von Zieldatenobjekten, ermittelt wird. Hierzu 
konnen beliebige Distanzmafie verwendet werden. Ein haufig in normierten 
Vektorraumen verwendetes MaB ist z. B. die Summe der Differenzenquadrate 
zwischen Ist- und Sollwerten. Durch Bestimmung des Abbildungsfehlers von 
iiberwacht trainierten Lernverfahren und -vorrichtungen kann auf diese Weise 
die XOM-Abbildungsqualitat lokal oder global bestimmt werden. Ein Spezi- 
alfall besteht darin, dafi eine Verkettung iiberwacht trainierter Abbildungen 
verwendet wird, wobei Quell- und Zielraum der Verkettung ubereinstimmen. 
ffier kann dann z. B. die Abweichung von Quell- und Zieldatenobjekten nach 
Hin- und Ruckprojektion in und von einem anderen Datenraum beobachtet 
und analysiert werden. 

(g) Qualitatsbeurteilung durch Interpolation, Extrapolation oder Ap- 
proximation, Hin- und Ruckprojektion: Letztlich kann die Qualitatsbe- 
urteilung bei XOM durch Interpolation, Extrapolation oder Approximation 
von Datenobjekten des Anordnungsraumes im Erkundungs- oder Ergebnisraum 
oder durch Interpolation, Extrapolation oder Approximation von Datenobjek- 
ten des Erkundungs- oder Ergebnisraumes im Anordnungsraum oder durch 
Vergleich eines Datenobjektes des Anordnungsraumes oder des Erkundungs- 
raumes mit seinem Bild nach Projektion und Ruckprojektion durch geeignete 
Verfahren der Interpolation, Extrapolation, Approximation oder des iiberwach- 
ten Lernens gemafi Stand der Technik oder dieser Patentschrift 

(h) Qualitatbeurteilung durch Irajektorien oder "Blobs": Es sei betont, 
daB bei den aufgefuhrten und bei anderen Verfahren zur Beurteilung der XOM- 
Abbildungsqualitat Datenobjekte auch sequentiell prasentiert werden konnen, 
z. B. Datenobjekte im Erkundungsraum, wobei zeitlich aufeinanderfolgend 
prasentierte Datenobjekte eine geringe wechselseitige Distanz besitzen. Die 
Datenprasentation erfolgt dann auf 'stetigen' Irajektorien im jeweiligen Da- 
tenraum, wobei zeitliche Nahe auch ortliche Nahe bedingt. Auch ist eine Da- 
tenprasentation in Form von zeitlich und ortlich wandernden "Erregungsberei- 
chen", sog. "Blobs" moglich. Unter geeigneten Annahmen, z. B. Stetigkeitsan- 
nahmen lassen sich damit, z. B. unter Riickgriff auf die genannten Methoden 
zur XOM-Qualitatsbeurteilung, weitere Kriterien zur Beurteilung der Abbil- 
dungsqualitat bei XOM entwickeln, die auch die zeitliche Dynamik der Daten- 
prasentation berucksichtigen bzw. durch diese beeinfluBt werden. 
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Dimensionsbestimmung: Durch topologieerhaltende Abbildungen konnen Ver- 
fahren und Vorrichtungen zur lokalen oder globalen Dimensionsbestimmung von 
Datenverteilungen konstruiert werden, insbesondere auch von Datenverteilungen 
mit fraktaler lokaler oder fraktaler globaler Dimension. Die Dimensionsbestimmung 
erfolgt hierbei dadurch, dafi zwei Datenverteilungen unter Verwendung topologieer- 
haltender Abbildungen aufeinander abgebildet werden, wobei eine den Anordnungs- 
raum, die andere den Erkundungsraum definiert oder beeinflufit. Durch Analyse der 
Eigenschaften der trainierten topologieerhaltenden Abbildung, etwa im Sinne der 
Verfahren und Vorrichtungen gemafi 2, lassen sich dann Riickschlusse auf die Di- 
mensionen der verwendeten VerteUungen Ziehen, z. B. im Sinne eines Dimensionsver- 
gleichs. Derartige Verfahren und Vorrichtungen sind ein eigenstandiger Aspekt der 
vorliegenden Erfindung und unabhangig von der XOM-Definition. Sie lassen sich 
jedoch auch im Hinblick auf die in Abschnitt 2.1 aufgefuhrten funktionellen und 
strukturellen Definitionen interpretieren, wenn man die dort eingefuhrte Dimension 
der "Eingabedaten" prazise anwendet. ffierbei sind folgende Falle zu unterscheiden: 

(a) Die Dimension der Datenverteilung des Anordnungsraumes soli bestimmt wer- 
den, die Dimension der Datenverteilung des Erkundungsraumes ist bekannt: 
Als Eingabedaten fungieren hierbei die bekannte Dimension der Datenvertei- 
lung des Erkundungsraumes und die Datenverteilung des Anordnungsraumes 
im Sinne von etwas 'Gegebenem, mit dem etwas gemacht werden soil'. Somit 
ist die XOM-Definition anwendbar. 

(b) Die Dimension der Datenverteilung des Erkundungsraumes soli bestimmt wer- 
den, die Dimension der Datenverteilung des Anordnungsraumes ist bekannt. 
Als Eingabedaten dienen hier die Datenverteilung des Erkundungsraumes und 
die bekannte Dimension der Datenverteilung des Anordnungsraumes. Letztere 
ist somit ein Eingabedatenobjekt, womit die XOM-Definition anwendbar wird. 

(c) Die Dimensionen beider Datenverteilungen sind unbekannt, es soli lediglich ein 
Dimensionsvergleich stattfinden. Beide Datenverteilungen sind somit Eingabe- 
daten, insbesondere auch die Datenverteilung des Anordnungsraumes. Somit 
ist die XOM-Definition anwendbar. 

Fur die beschriebene Dimensionsbestimmung durch topologieerhaltende Abbildun- 
gen k6nnen grundsatzlich beliebige Datenverteilungen benutzt werden. Als Referenz- 
verteilungen mit bekannter oder berechenbarer Dimension seien hier insbesondere 
genannt: (i) die in [27] beschriebenen und zitierten Fraktale (ii) Attraktoren von 
Differentialgleichungen und Differentialgleichungssystemen, insbesondere "chaoti- 
sche" und "seltsame" Attraktoren, z. B. Lorenz-Attraktor, Rossler-Attraktor, Ueda- 
Duffing-Attraktor, Attraktor der Mackey-Glass-Differentialgleichung (Differential- 
delay equation) etc. sowie (iii) Attraktoren von iterativen Abbildungen, insbeson- 
dere "chaotische" und "seltsame" Attraktoren, z. B. Sinai map, Circle map, Sine 
map, Shift map, Tent map, Logistic map, Henon map, Chirikov map etc. Im" Hin- 



32 



WO 2004/017258 




PCT/EP2003/008951 



blick auf (ii) und (iii) konnen samtliche in der Literatur zu chaotischen Systemen 
und nichtlinearer Dynamik beschriebenen Attraktoren zur Dimensionsbestimmung 
durch topologieerhaltende Abbildungen verwendet werden, eine Literaturiibersicht 
findet sich z. B. unter "http://www.chaos.lUIld.edu/pubUcations/^efe^ences.htm^^ 
Es sei insbesondere im Hinblick auf (i) betont, da6 es in vielen Fallen eines spezi- 
ellen Vorgehens bedarf, um eine Dimensionsbestimmung durch topologieerhaltende 
Abbildungen durchfuhren zu konnen. So sind die in [27] angegebenen Hausdorff- 
Dimensionen vielfach analytisch berechnete Werte, die sich auf die idealtypischen 
fraktalen Objekte beziehen. Diese enthalten i. a unendlich viele Datenpunkte und 
entziehen sich somit der exakten Simulation auf Datenverarbeitungsanlagen. Er- 
zeugt man nun beispielsweise durch rekursive Abbildungsvorschriften selbstahnli- 
che Punktverteilungen uber mehrere Rekursionsstufen gemafi den in [27] angege- 
benen Berechnungsvorschriften, so erhalt man haufig Datenverteilungen, die eine 
sehr groBe Anzahl an Datenpunkten besitzen. Reduziert maji die Anzahl der Re- 
kursionsstufen, so erhalt man zwar eine geringere Anzahl an Datenpunkten, die 
resultierende Verteilung besitzt jedoch andere Eigenschaften als das ideaJtypische 
Praktal, insbesondere kann die Hausdorff-Dimension erheblich von der Dimensi- 
on des idealtypischen PraktaJs abweichen. Dies ist vielfach dadurch bedingt, dafi 
die Selbstahnlichkeit iiber mehrere Rekursionsstufen die fraktale Dimension we- 
sentlich bestimmt. Der besondere TVick besteht nun darin, das Praktal zunachst 
xiber zahlreiche Rekursionsstufen zu berechnen und dann eine zufallige Auswahl 
der errechneten Datenpunkte zu treffen. Um die Dimension der resultierenden Da- 
tenverteilung experimentell zu bestimmen und ggf. Abweichungen vom theoretisch 
vorhergesagten Wert zu erfassen, eignet sich besonders die Bestimmung der Korre- 
lationsdimension nach Grassberger-Procaccia [16]. Besonders geeignet zur Dimensi- 
onsbestimmung mit topologieerhaltenden Abbildungen sind Datenverteilungen, de- 
ren Dimension systematisch, d. h. durch Veranderung eines oder mehrerer Parame- 
ter in einem bestimmten Bereich "durchgestimmt" bzw. eingestellt werden kann. 
Als Beispiel seien die diesbeziiglich in [27] genannten Systeme, z. B. fraktale Tep- 
piche, Schwamme, Schaume, Netze, Gitter oder Koch-Inseln und -Seen sowie die 
Mackey-Glass-Differentialgleichung (Differential-delay equation) [26], deren Attrak- 
tordimension von der Zeitverzogerung abhangt. Es seien noch einige spezielle Falle 
der Dimensionsbestimmung durch topologieerhaltende Abbildungen genannt: 

(a) Dimensionsbestimmung im Anordnungsraum: Dimensionsbestimmung 
der Datenverteilung im Anordnungsraum einer topologieerhaltenden Abbil- 
dung auf der Basis der unter Punkt 1 aufgefiihrten Verfahren und Vorrichtun- 
gen, insbesondere durch die unter Punkt 2 aufgefiihrten Verfahren und Vorrich- 
tungen, insbesondere durch wiederholte Anwendung der unter 1 aufgefiihrten 
Verfahren und Vorrichtungen t mit Datenverteilungen im Erkundungsraum von 
bekannter, ggf. jeweils unterschiedlicher Dimension 
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(b) Dimensionsbestimmung im Anordnungsraum: Dimensionsbestimmung 
der Datenverteilung im Erkundungsraum einer topologieerhaltenden Abbil- 
dung auf der Basis der unter Punkt 1 aufgefuhrten Verfahren und Vorrichtun- 
gen, insbesondere durch die unter Punkt 2 aufgefuhrten Verfahren und Vorrich- 
tungen, insbesondere durch wiederholte Anwendung der unter 1 aufgefuhrten 
Verfahren und Vorrichtungen, mit Datenverteilungen im Anordnungsraum von 
bekannter, ggf. jeweils unterschiedlicher Dimension 

(c) Dimensionsvergleich: Dimensionsvergleich auf der Basis der unter Punkt 1 
aufgefuhrten Verfahren und Vorrichtungen, insbesondere auch mittels Aus- 
tausch der Datenverteilungen von Anordnungsraum und Erkundungsraum, d. h. 
wechselseitige Einbettung, wobei die Dimensionen einer oder beider Datenver- 
teilungen auch unbekannt sein konnen, insbesondere durch die unter Punkt 2 
aufgefuhrten Verfahren und Vorrichtungen, insbesondere auch Anordnung von 
mehr als zwei Datenverteilungen im Hinblick auf ihre Dimension durch paar- 
weisen Dimensionsvergleich 

Wichtig fur die Dimensionsbestimmung durch XOM ist, dafi samtliche in dieser 
Patentschrift und insbesondere in 1 und 2 aufgefuhrten XOM-Modifikationen und 
Evaluationstechniken eingesetzt werden konnen. 

4. Einbettung: Durch XOM lassen sich leistungsfahige Verfahren und Vorrichtun- 
gen, insbesondere gemafi den Beschreibungen in Punkt 1 zur nichtlinearen Einbet- 
tung von Datenobjekten bzw. deren Verteilungen im Anordnungsraum in beliebige 
Datenobjekte bzw. deren Verteilungen im Erkundungsraum realisieren. Typischer- 
weise wird hierbei der Anordnungsraum einer topologieerhaltenden Abbildung aus 
den einzubettenden Eingabedaten konstruiert. Im einfachsten Fall werden die Ein- 
gabedaten hierzu direkt verwendet, es ist jedoch auch moghch, die Eingabedaten 
durch Berechnungsvorschriften zu verarbeiten, bevor sie in den Anordnungsraum 
eingespeist werden. Auch ist es moglich, dafi der Anordnungsraum nicht vollstandig 
durch die Eingabedaten bestimmt ist. Die letztlich im Anordnungsraum vorliegen- 
den Daten werden als Ursprungsdaten bezeichnet. Als Einbettungsraum dient ein 
beliebiger Erkundungsraum, dieser ist typischerweise durch Strukturhypothesen be- 
stimmt, jedoch kann er auch durch Eingabedaten oder beides enthalten bzw. beein- 
flufit werden. Einbettungen durch XOM konnen z. B. zur explorativen Datenana- 
lyse und/oder Visualisierung der Ursprungsdaten oder zur Datenreduktion der Ur- 
sprungsdaten dienen, insbesondere wenn der Erkundungsraum einfacher und/oder 
von geringerer Dimension als der Datenraum der Ursprungsdaten gewahlt wird. Es 
kann jedoch auch sinnvoll sein, die Dimension des Erkundungsraumes grofier als die 
des Anordnungsraumes zu wahlen, z. B. um Dimensionsschatzungen durchzufiihren 
oder Auffaltungsphanomene zu beobachten, vgl. hierzu auch die Punkte 3 und 2. 
Wesentliche Aspekte der Einbettung durch XOM sind, 

(a) dafi insbesondere auch Datenobjekte, Verteilungen von Datenobjekten bzw. Da- 
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tenraume eingebettet werden konnen, fur die beliebige DistanzmaBe gelten, al- 
so i a. die Distanzen zwischen den Datenobjekten dieser Verteilungen durch 
beliebige Distanzmafie definiert sein konnen, audi solche, die im mathemati- 
schen Sinne keine Metrik bilden. Hier wird besonders auf die Punkte le, If und 
lg verwiesen. Die Einbettung von beliebigen, insbesondere auch nichtmetri- 
schen Datenverteilungen, wobei diese Datenverteilungen beziiglich beliebiger 
Distanzmafie die Topologie des Anordnungsraumes topologieerhaltender Ab- 
bildungen bestimmen, ist ein zentraler Aspekt der Erfindung. Ein besonders 
wichtiger Sonderfall sind paarweise, ggf. nichtmetrische Dissimilaritaten von 
Datenobjekten. 

(b) dafi insbesondere auch Datenobjekte, Verteilungen von Datenobjekten bzw. Da- 
tenraume mit fraktaler lokaler oder globaler Dimension eingebettet werden 
konnen, vgl. auch die Ausfuhrungen in Punkt 3. 

(c) dafi insbesondere auch Datenobjekte, Verteilungen von Datenobjekten bzw. Da- 
tenraume eingebettet werden konnen, die vollstandig oder teilweise iiber Di- 
stanzobjekte definiert sind, fur die also z. B. lediglich paarweise Distanzen, 
nicht jedoch metrische Einbettungen bekannt sind, insbesondere zum Zwecke 
der Berechnung von metrischen Einbettungen. 

(d) dafi insbesondere auch Umskalierungen der Distanzen im Anordnungsraum im 
Sinne von lr, z. B. als Sparseness Annealing, sowie samtliche in dieser Pa- 
tentschrift und insbesondere in 1 aufgefiihrten XOM-Modifikationen eingesetzt 
werden konnen. 

(e) dafi das Einbettungsergebnis durch graphische Darstellung in Form eines Er- 
gebnis- bzw. Erkundungsplots gemafi Punkt 2d visualisiert und analysiert wer- 
den kann, , insbesondere auch zum Zwecke der nichtlinearen Hauptkomponen- 
tenanalyse oder zur Visualisierung von Losungen von Optimierungsproblemen 
oder zur Visualisierungen von Datenpartitionierungen (Cluster ergebnissen). 

(f) dafi das Einbettungsergebnis durch graphische Darstellung in Form eines An- 
ordnungsplots gemafi 2e visualisiert und analysiert werden kann, insbesondere 
auch zum Zwecke der nichtlinearen Hauptkomponentenanalyse oder zur Visua- 
lisierung von Losungen von Optimierungsproblemen oder zur Visualisierungen 
von Datenpartitionierungen (Clusterergebnissen). 

(g) dafi eine Qualitatsbeurteilung des Einbettungsergebnisses gemafi Punkt 2 erfol- 
gen kann. Hierdurch lassen sich insbesondere auch Strukturhypothesen bzgl. ge- 
eignet zu wahlender Erkundungsraume zielgerichtet, ggf. iterativ, verbessern. 

Datenpartitionierung, Clustering: Durch XOM lassen sich leistungsfahige Ver- 
fahren und Vorrichtungen zur scharfen und unscharfen Partitionierung bzw. zum 
Clustering von Verteilungen von Datenobjekten konstuieren, insbesondere unter 
Berlicksichtigung der Beschreibungen in Punkt 1. Eine Beispiel fiir eine typische 
Vorgehensweise sei im folgenden beschrieben: 
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(a) Wahle die Eingabedatenverteilung als Anordnungsraum. 

(b) Wahle eine geeignete Strukturhypothese fur den Erkundungsraum. Als belie- 
biges Beispiel sei hier eine Datenverteilung genannt, die aus mehreren Gaufi- 
verteilungen zusammengesetzt ist, deren Parameter ad hoc festgelegt werden. 
Die Schwerpunkte der Gaufiverteilungen konnen eine beliebig vorgegebene to 
pologische Struktur besitzen, beispielsweise konnen sie auf einem regularen 
Gitter angeordnet sein. Man beachte, dafi fur die Wahl der Datenverteilungen 
im Erkundungsraum keinerlei Einschrankungen bestehen, siehe insbesondere 
nachfolgend aufgefuhrte Punkte. 

(c) Ttainiere die topologieerhaltende Abbildung. 

(d) Ordne die Codebuchobjekte scharf oder unscharf den einzelnen Datenverteilun- 
gen des Erkundungsraumes zu, beispielsweise durch Berechnung und Vergleich 
von Distanzen der einzelnen Codebuchobjekte zu den Schwerpunkten der ein- 
zelnen Datenverteilungen, die ja in diesem Fall als Gaufiverteilungen gewahlt 
wurden. Durch Definition geeigneter Distanzmafie, z. B. Likelihood, kann dies 
auch in unscharfer Weise erfolgen, sowie in Fallen, in denen Ergebnisraum und 
Erkundungsraum nicht iibereinstimmen. 

Wesentliche Aspekte fur Datenpartitionierung bzw. Clustering durch XOM sind, 

(a) dafi insbesondere auch Datenobjekte, Verteilungen von Datenobjekten bzw. Da- 
tenraume geclustert werden konnen, fur die beliebige Distanzmafie gelten, also 
i a. die Distanzen zwischen den Datenobjekten dieser Verteilungen durch be- 
liebige Distanzmafie definiert sein konnen, auch solche, die im mathematischen 
Sinne keine Metrik bilden. Hier wird besonders auf die Punkte le, If und 
lg verwiesen. Das Clustering von beliebigen, insbesondere auch nichtmetri- 
schen Datenverteilungen, wobei diese Datenverteilungen beziiglich beliebiger 
Distanzmafie die Topologie des Anordnungsraumes topologieerhaltender Ab- 
bildungen bestimmen, ist ein zentraler Aspekt der Erfindung. Ein besonders 
wichtiger Sonderfall sind paarweise, ggf. nichtmetrische Dissimilaritaten von 
Datenobjekten. 

(b) dafi insbesondere auch Datenobjekte, Verteilungen von Datenobjekten bzw. Da- 
tenraume mit fraktaler lokaler oder globaler Dimension geclustert werden kon- 
nen, vgl. auch die Ausfuhrungen in Punkt 3. 

(c) dafi insbesondere auch Datenobjekte, Verteilungen von Datenobjekten bzw. Da- 
tenraume geclustert werden konnen, die vollstandig oder teilweise iiber Distan- 
zobjekte definiert sind, fur die also z. B. lediglich paarweise Distanzen, nicht 
jedoch metrische Einbettungen bekannt sind, insbesondere zum Zwecke des 
Clustering in metrischen Einbettungen. 

(d) dafi fur die Wahl der Datenobjekte und Verteilungen sowie deren Parameter 
im Erkundungsraum keinerlei Einschrankungen bestehen. 
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(e) dafi dieses insbesondere durch Training der topologieerhaltenden Abbildung 
mit einer naturlichen Zahl identischer, ahnlicher oder unterschiedlicher Da- 
tenverteilungen im Merkmalsraum mit jeweils unterschiedlichem Schwerpunkt 
bzw. Median erfolgen kann. 

(f) dafl dieses insbesondere erfolgen kann durch harte oder unscharfe Zuordnung 
einzelner Datenobjekte zu Clustern durch ein Kriterium, welches sich auf die 
durch ein beliebiges Distanzmafi bestimmten Distanz (z. B. Minimal distance) 
des zum Datenobjekt zugehdrigen Codebuchobjekts von den Schwerpunkten 
oder anderen charakteristischen Orten der Datenverteilungen (z. B. Median) 
im Erkundungsraum bezieht, z. B. die Likelihood (z. B. Maximum likelihood) 
der Positionierung des Codebuchobjekts bei bekannter Struktur der Datenver- 
teilungen im Erkundungsraum oder irgendeine andere Berechnungsvorschrift, 
der die vollstandige oder partielle Kenntnis der Verteilungsfunktionen im Er- 
kundungsraum zugrundeliegt. 

(g) dafi es sich bei der Wahl der Datenobjekte und Verteilungen im Erkundungs- 
raum insbesondere handeln kann um: einfache geometrische Objekte (z. B. Po- 
lygone, einfache geometrische Korper, Geradenstiicke, Kreise, Ringe, Kugeln 
etc.), beliebige charakteristische Verteilungen, d. h. lokalisierte Gleichverteilun- 
gen, Normalverteilungen, Laplace verteilungen, Poissonverteilungen, Binomial- 
verteilungen, hypergeometrische Verteilungen, x 2 - Verteilungen, Student'sche 
t- Verteilungen, Fisher'sche F-Verteilungen, Gammaverteilungen, Fisher'sche 
Z-Verteilungen, Kolmogorow-Smirnow'sche A- Verteilungen (Definitionen [5]) 
oder um einzelne Datenobjekte im Sinne von Delta-Peaks. 

(h) dafi die Schwerpunkte oder andere ortliche Kenngrofien der Datenverteilun- 
gen im Erkundungsraum, z. B. die Mediane, im Erkundungsraum paarweise 
aquidistaut angeordnet sind, z. B. auf einem diskreten, periodischen Gitter. 

(i) dafi insbesondere eine echte oder unechte Teilmenge der Gewichte, z. B. An- 
zahl der zu den einzelnen Verteilungen gehorenden Datenobjekten, oder die 
Streumafie (Momente) oder beliebige andere Parameter der Datenverteilungen 
im Erkundungsraum identisch oder ahnlich sein konnen. 

0) dafi insbesondere die Schwerpunkte der Datenverteilungen im Erkundungsraum 
bei Vorgabe von n € IN Verteilungen auf den Ecken eines regularen Simplex 
im Erkundungsraum liegen konnen, dessen Dimension mindestens n - 1 ist 

(k) dafi insbesondere Anzahl, Struktur, Lokalisation, Dimension, relative oder ab- 
solute Gewichte oder beliebige Parameter der Datenverteilungen im Erkun- 
dungsraum wahrend eines Trainingsvorganges oder bei wiederholten TVainings- 
vorgangen der topologieerhaltenden Abbildung veranderlich gewahlt werden 
konnen, insbesondere dafi diese variiert werden konnen, um ein Qualitatskrite- 
rium gemafi den Punkten 2 oder 6 zu optimieren. Insbesondere konnen wahrend 
eines Trainingsvorganges oder bei wiederholten TVainingsvorgangen Streumafie 
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der Verteilungen im Erkundungsraum systematisch veranderlich gewahlt wer- 
den, z. B. um eine zunehmende Fokussierung der Datenobjekte auf einzelne 
Cluster zu begiinstigen, d. h. um die Entropie der Verteilung der Datenobjekte 
auf die Cluster zu verringern. 

(1) dafi insbesondere auch Umskalierungen der Distanzen im Anordnungsraum im 
Sinne von lr, z. B. als Sparseness Annealing, sowie samtliche in dieser Pa- 
tentschrift und insbesondere in 1 aufgefuhrten XOM-Modifikationen eingesetzt 
werden konnen. 

(m) dafi Ergebnisse des Clustering durch graphische Darstellung in Form eines 
Ergebnis- bzw. Erkundungsplots gemafi Punkt 2d visualisiert und analysiert 
werden konnen. Hier sind insbesondere auch DarsteUungen geschiitzt, die Clu- 
stergrenzen bzw. Tesselierungen charakterisieren oder die durch beliebige gra- 
phische Hilfemittel die Zugehorigkeit von Datenobjekten zu Clustern kenn- 
zeichnen. 

(n) dafi Ergebnisse des Clustering durch graphische Darstellung in Form eines An- 
ordnungsplots gemafi 2e visualisiert und analysiert werden konnen. Hier sind 
insbesondere auch DarsteUungen geschiitzt, die Clustergrenzen bzw. Tesselie- 
rungen charakterisieren oder die durch beliebige graphische Hilfsmittel die Zu- 
gehorigkeit von Datenobjekten zu Clustern kennzeichnen. 

(o) dafi eine Qualitatsbeurteilung der Ergebnisse des Clustering gemafi Punkt 2 
erfolgen kann. Hierdurch lassen sich insbesondere auch Strukturhypothesen 
bzgl. geeignet zu wahlender Erkundungsraume zielgerichtet, ggf. iterativ, ver- 
bessern. 

(p) dafi das Clustering hierarchisch erfolgen kann, insbesondere im Hinblick auf 
Punkt lq, z. B. durch sich dynamisch sukzessiv aufspaltende Verteilungen im 
Erkundungsraum wahrend eines Trainingsvorganges oder im Laufe mehrerer 
Trainingsvorgange der topologieerhaltenden Abbildung. 

6. Clustervaliditat: Unter Clustervaliditat versteht man das Problem, den zu clu- 
sternden DatenverteUungen angemessene Strukturhypothesen zu definieren und/oder 
die Qualitat gegebener Partitionierungen von Daten im Hinblick auf diese Struk- 
turhypothesen zu beurteilen, insbesondere im Hinblick auf Anzahl und/oder relati- 
ves Gewicht der Cluster, auf die Wahl von Initialisierungsstrategien und/oder Wahl 
der angewandten Clusteringmethode. Zum Problem der Clustervaliditat sowie zahl- 
reichen Losungsversuchen vgl. z. B. (31]. 

Ein wesentlicher eigenstandiger Aspekt der Erfindung bezieht sich darauf, dafi im 
Gegensatz zum Stand der Technik Verfahren zur Bestimmung der Clustervaliditat 
auf Dissimilantatsdaten vorgeschlagen werden. Ein solches Verfahren lafit sich tech- 
nisch folgendermafien charakterisieren: 
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Verfahren zur Datenverarbeitung fiir die Bestimmung der Clustervaliditat, bei dem 
Datenobjekte eingegeben werden, Distanzobjekte zwischen diesen Datenobjekten 
eingegeben und/oder berechnet werden, sowie eine Zuordnung der zu verarbeiten- 
den Datenobjekte zu Gruppen eingegeben und/oder berechnet wird, insbesondere 
gemafi in dieser Patentschrift dargestellten Verfahren, und ein Mafi fiir die Qualitat 
dieser Zuordnung als Ausgabedaten ausgegeben wird, wobei das Mafi fiir die Qua- 
litat der Zuordnung unter Verwendung von wenigstens einem Teil der eingegebenen 
und/oder berechneten Distanzobjekte berechnet wird. Im Hinblick auf den Begriff 
"Distanzobjekt" gilt obige Definition. Es sei noch einmal besonders betont, dafi in 
dieser Definition insbesondere Distanzmafie eingeschlossen sind, die im mathemati- 
schen Sinne keine Metrik definieren. 

Als konkrete Realisierungen derartiger Verfahren werden zwei Vorgehensweisen vor- 
geschlagen: 

Einerseits konnen Clustervaliditatsmafie fiir Dissimilaritatsdaten entwickelt werden, 
die auf Kostenfunktionen beruhen, die fiir Verfahren zum Clustering von Dissimi- 
laritatsdaten verwendet werden. Fiir Beispiele derartiger Kostenfunktionen sei auf 
die Literatur zu Verfahren zum Clustering von Dissimilaritatsdaten verwiesen, ins- 
besondere [21], [13], [14], (15] sowie die in diesen Arbeiten zitierte Literatur. 
Beispielsweise kann man Verfahren und Vorrichtungen zur Bestimmung der Cluster- 
validitat entwickeln, indem man zweite Differenzen der Kostenfunktionen, die fur 
Verfahren zum Clustering von Dissimilaritatsdaten verwendet werden, berechnet, 
beispielsweise zweite Differenzen der Kostenfunktionen in Abhangigkeit von der je- 
weils verwendeten Anzahl von Clustern. Relative oder absolute Maxima der Grofie 
dieser zweiten Differenzen konnen als Clustervaliditatskriterium verwendet werden. 
Als zweite Vorgehensweise lassen sich durch XOM leistungsfahige Verfahren und 
Vorrichtungen zur Beurteilung der Clustervaliditat bei der scharfen und unscharfen 
Partitionierung bzw. beim Clustering von Verteilungen von Datenobjekten konstru- 
ieren, insbesondere unter Beriicksichtigung der Beschreibungen in Punkt 1 5 und 
2. 

Eine Beispiel fur eine typische Vorgehensweise bei der Clustervaliditatsbestimmung 
durch XOM sei im folgenden beschrieben: 

(a) Definiere ein Clustervaliditatskriterium, z. B. gemafi 2. 

(b) Fiihre ein Clustering gemafi 5 durch. 

(c) Analysiere die Ergebnisse des Clustering im Hinblick auf dieses Kriterium. 

(d) Andere die Strukturhypothesen fur das Clustering, d. h. die fur das Clustering 
gewahlten Datenverteilungen im Erkundungsraum. Wiederhole Clustering und 
Analyse im Hinblick auf das Kriterium, evtl. mehrmals, z. B. im Hinblick auf 
eine Optimierung der Clusterergebnisse beziiglich des Kriteriums. 
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Einfache und wichtige Beispiele fur Clustervaliditatskriterien sind die in 2 genannten 
Mafie zur Analyse der Verzerrung, der Topologie- und Verteilungserhaltung sowie 
die aus Distanzplots oder der QuaJitatsbeurteilung durch iiberwachtes Lernen ge- 
wonnenen Mafie. 

Wesentliche Aspekte der Clustervaliditatsanalyse durch XOM sind, 

(a) dafi sie insbesondere auch fiir nichtmetrische Datenverteilungen durchgefiihrt 
werden kann. Sie kann fur beliebige Datenobjekte, Verteilungen von Datenob- 
jekten bzw. Datenraumen durchgefiihrt werden, insbesondere diejenigen, die 
durch XOM geclustert werden konnen. Die diesbeziiglichen Bemerkungen im 
Punkt 5 gelten in vollem Umfang. 

(b) dafi sie insbesondere auf der Basis aller Verfahren und Vorrichtungen aus 
Punkt 2 durchgefiihrt werden kann. 

(c) dafi sie auch benutzt werden kann, urn die Qualitat einer vorgegebenen, d. h. 
nicht durch XOM-Clustering ermittelten Datenpartitionierung zu beurteilen. 

(d) dafi eine Visualisierung derartiger Analysen in Form von Erkundungs-, Ergeb- 
nis-, und Anordnungsplots im Sinne von 2 erfolgen kann, hierbei kann insbe- 
sondere auch eine bekannte oder berechnete Datenpartitionierung visualisiert 
werden, z. B. indem die Zuordnung von Datenobjekten zu Clustern visualisiert 
wird. Zusatzlich kann eine graphische Darstellung der Clustervaliditatsmafie in 
Abhangigkeit von den Strukturhypothesen bzw. von deren Parameter erfolgen. 
Typischerweise konnen Clustervaliditatsmafie z. B. in Abhangigkeit von der 
Anzahl der vorgegebenen Cluster dargestellt werden. 

(e) dafi bei wiederholter Durchfuhrung derartiger Analysen nicht nur die Anzaiil 
der Cluster verandert werden kann, sondern beliebige Strukturhypothesen, ins- 
besondere konnen auch Schemata des hierarchischen Clustering, vgl. Punkt 5, 
angewandt werden. 

7. Uberwachtes Lernen: Durch XOM konnen Verfahren und Vorrichtungen fiir iiber- 
wachtes Lernen, insbesondere zum Zweck der Punktionenapproximation oder Punk- 
tioneninterpolation, zur Zeitreihenanalyse oder Zeitreihenvorhersage, zur Glattung 
oder Filterung konstruiert werden. Bei iiberwachtem Lernen wird ein Lernverfah- 
ren bzw. eine Lernvorrichtung durch Paare von Datenobjekten trainiert, wobei ein 
Paar aus einem oder mehreren Quelldatenobjekten sowie einem oder mehreren Ziel- 
datenobjekten besteht. Die Quelldatenobjekte sind hierbei einem Quellraum, die 
Zieidatenobjekte einem Zielraum entnommen. 1st das Training fortgeschritten oder 
abgeschlossen, kann in einer sog. Test- bzw. Arbeitsphase bei Vorgabe von evtl. neu- 
en Quelldatenobjekten ohne zugehorige Zieidatenobjekte unter Riickgriff auf die 
trainierte Abbildung eine Schatzung fur zugeordnete Zieidatenobjekte erhalten wer- 
den. Typische uberwachte Lemverfahren sind z. B. unterschiedliche neuronale Netze 
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(z. B. Multilayer Peceptrons [38], Radiale-Basisfunktionen-Netzwerke [33], Support 
Vector Machines [6] sowie zahlreiche Varianten dieser Verfahren), lokale Modelle 
(z. B [43], [29]), z. B. lokale Durchschnittsmodelle oder lokale lineare Modelle, sowie 
samtliche in der Literatur beschriebenen Approximations- oder Interpolationsver- 
fahren. 

Uberwachtes Lernen durch XOM kann unter Verwendung aller durch diese Patent- 
schrift aufgefiihrten Aspekte realisiert werden, z. B. unter Riickgriff auf die Beschrei- 
bungen in 1 sowie auch in Kombination mit der Verwendung von Interpolations- oder 
Approximationsmethoden gemafi Stand der Technik. 

Realisierungsmoglichkeiten sowie wesentliche Aspekte uberwachten Lernens durch 
XOM sind, 

(a) dafi dieses insbesondere durch durch Aufspaltung des Anordnungsraumes in 
Quell- und Zielraum bei XOM erfolgen kann. Typischerweise wird hierbei der 
Anordnungsraum als Produktraum von Quell- und Zielraum definiert. Nun- 
mehr wird mittels XOM eine reprasentierende Hypermannigfaltigkeit der Da- 
tenverteilung gemafi Punkt 14 in diesem Produktraum konstruiert. In der Ar- 
beitsphase kann bei Vorgabe eines Quelldatenobjekts unter Kenntnis der Hy- 
permannigfaltigkeit ein Zieldatenobjekt ermittelt werden, indem die Koordina- 
ten des zum Quelldatenobjekt gehorenden Punktes der Hypermannigfaltigkeit 
un Zielraum erganzt werden. Diese Vorgehensweise kann z. B: zum Zweck der 
Funktionenapproximation oder Punktioneninterpolation genutzt werden. 

(b) dafi dieses insbesondere unter Verwendung von Verfahren und Vorrichtungen 
gemafi Punkt lo realisiert werden kann z. B. zum Zwecke der Funktionenap- 
proximation oder Funktioneninterpolation. 

(c) dafi dieses insbesondere unter Verwendung von Verfahren und Vorrichtungen 
zum XOM-Clustering gemafi Punkten 5 realisiert werden kann. Hierzu werden 
typischerweise die durch XOM-Clustering erhaltenen Resultate als zusatzli- 
che Eingabe von Verfahren und Vorrichtungen fur uberwachtes Lernen gemafi 
Stand der Technik benutzt. Ein besonders wichtiger Spezialfall ist die Einspei- 
sung von XOM-Clusteringergebnissen beim Training von Radiale-Basisfunktio- 
nen-Netzwerken gemafi Punkt 21a. 

(d) dafi dieses insbesondere auch zum Zweck des uberwachten Lernens auf rae- 
trischen oder nichtmetrischen Dissimilaritatsdaten verwendet werden kann 
z. B. zum Zwecke der Klassifikation auf derartigen Daten. Hierzu kann beispiekv 
weise em XOM-Clustering gemafi 5 auf ggf. nichtmetrischen Dissimilaritatsda- 
ten durchgefuhrt werden. Die hierbei erhaltenen Clusteringergebnisse konnen 
dann beispielsweise in das Training eines Radiale-Basisfunktionen-Netzwerks 
emgespeist werden, etwa im Sinne von 21a. 
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(e) insbesondere auch in Kombination mit der Verwendung von Interpolations- 
oder Approamationsmethoden gemafi dem Stand der Technik oder den ande- 
ren Anspriichen 

Registrierung: Durch XOM konnen Verfahren und Vomchtungen fur die Reei- 
stnerung von Datensatzen realisiert werden unter Riickgriff auf alle Punkte dieser 
Patentschnft insbesondere auf Punkt 1 sowie in Kombination von XOM mit Ver- 
fahren und Vomchtungen gemafi Stand der Technik. Insbesondere kann dadurch 
reatSr?werden neare ' lokal ver2erre °de Registrierung von Datensatzen 

Typischerweise liegen im einfachsten Fall zwei Datenverteilungen zugrunde Der 

K./S^TS' S ° U ^ eiDen "^ fer ^^ensatz" registriert werden. Dieser 
ist haufig dem Testdatensatz gemafi geeignet zu definierender Kriterien ahnlich T Y - 
p*cherweisesmd Test- und Referenzdatensatz vorgegeben, es handelt sich also bei 
beiden urn Emgabedaten im Sinne von etwas "Gegebenem, mit dem etwas gemacht 
werden soli." Im einfachsten Fall wird nun einer der beiden Datensatze verwen- 
det, urn den Anordnungsraum einer topologieerhaltenden Abbildung zu definieren 
SlS er \^ e ^ atz A ^ tingegen verwendet, urn den Erkundungsraum dieser 
topologieerhaltenden Abbildung zu definieren. In jedem Fall werden Eingabedaten 
verwendet urn den Anordnungsraum teilweise oder vollstandig zu definieren. Somit 
ist die XOM-Definition anwendbar. 

Nach erfolgtem Training der topologieerhaltenden AbbUdung kann die Qualitat des 
Registnerungsergebnisses beurteilt werden, insbesondere unter Verwendung der Ver- 
fahren und Vorrichtungen aus Punkt 2. 

Wesentliche Aspekte der Registrierung durch XOM sind, 

(a) £! \ JV nSl f ondere «™ Zw «*e der Registrierung von - ggf. multispektralen 
Bilddatensatzen - in 2D und 3D, sowie von Bildfolgen eingesetzt werden kann. 

(b) dafisie insbesondere zum Zwecke der Registrierung von Zeitreihen oder Zeit- 
funktionen eingesetzt werden kann, z. B. im Sinne eines Dynamic Time War- 
ping (DTW), zur Definition von DTW vgl. z. B. [22]. 

(c) dafi sie insbesondere als Vorverarbeitung fur beliebige weitere Datenverarbei- 
tungsaufgaben, z. B. Klassifikation oder Clustering, im Sinne einer "Normali- 

S,e 4 Un T S 1J V I erWei1 det werden faum - Hierbei wer den unterschiedliche Datensatze 
z. B. Bilddatensatze auf einen vorgegebenen Standarddatensatz registriert 1st 
beispielsweise auf dem Standarddatensatz ein Klassifikationsproblem - oder 
em behebiges anderes Datenverarbeitungsproblem - bereits ganz oder teilweise 
erfolgreich geldst so kann nach Registrierung diese Losung auch fur die ande- 
ren Datensatze ubernommen werden. Ein beliebiges Beispiel ist die Segmentie- 
rung bestimmter Regionen in Bilddatensatzen des Gehirns durch Registrierung 
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von Bilddatensatzen unterschiedlicher Individuen auf ein bereits segmentiertes 
"Normalhirn" , welches als Standarddatensatz dient. 

(d) dafi hierdurch insbesondere Mafie fur die lokale oder globale Ahnlichkeit zwi- 
schen verschiedenen Datensatzen gewonnen werden konnen, insbesondere unter 
Verwendung der Verfahren und Vorrichtungen nach Punkt 2. 

(e) dafi vor der Registrierung auch eine Datenreduktion im Sinne einer Vektor- 
quantisierung durchgefiihrt werden kann. 

(f) dafi Rand- oder sonstige Zusatzbedingungen fur die Registrierung durch sog. 
'Topologieanker" erzwungen werden konnen. Hierbei handelt es sich urn zusatz- 
liche Datenobjekte, die den zu registrierenden Datensatzen hinzugefiigt werden. 
Dies erfolgt in der Regel (i) in denjenigen Bereichen der Datensatze, die durch 
die Registrierung moglichst gut zur Deckung gebracht werden sollen, (ii) in 
den zu registrierenden Datensatzen auf ahnliche Weise. Diese Topologieanker 
werden in der Regel so gewahlt, dafi bei deren inkongruenter Registrierung 
hohe Kosten im Sinne von Mafien der Abbildungsqualitat zu erwarten sind, 
z. B. gemafi den in 2 genannten Kriterien. 

9. Active Learning: Durch XOM konnen Verfahren und Vorrichtungen fur sog. "Ak- 
tives Lernen" realisiert werden unter Riickgriff auf alle Punkte dieser Patentschrift, 
insbesondere auf Punkt 1 sowie in Kombination von XOM mit Verfahren und Vor- 
richtungen gemafi Stand der Technik. Hierunter versteht man eine Vorgehensweise, 
bei der wahrend des Ttainingsvorganges eines Lernverfahrens die Auswahl von Da- 
tenobjekten aus dem Trainingsdatensatz fiir das weitere Training unter Verwendung 
geeigneter Berechnungsverfahren durch den aktuellen Status des Lernverfahrens ge- 
zielt beeinfluflt wird. 

Ein typisches Beispiel fur die Realisierung aktiven Lernens durch XOM besteht 
z. B. darin, dafi wahrend des Trainingsvorganges der topologieerhaltenden Abbil- 
dung die Auswahl von Datenobjekten aus dem Erkundungsraum durch geeignete 
Berechnungsverfahren durch den aktuellen Status der topologieerhaltenden Abbil- 
dung beeinflufit wird, etwa durch die erreichte globale oder lokale Abbildungsqua- 
litat, z. B. unter Verwendung von Verfahren oder Vorrichtungen gemafi Anspruch 
2* 

10. Molekulardynamiksimulation: Durch XOM konnen Verfahren und Vorrichtun- 
gen fur sog. "Molekulardynamiksimulationen" realisiert werden unter Ruckgriff auf 
alle Punkte dieser Patentschrift, insbesondere auf Punkt 1 sowie in Kombination 
von XOM mit Verfahren und Vorrichtungen gemafi Stand der Technik. Hierun- 
ter versteht man Berechnungen der raum-zeitlichen Struktur von Molekiilen ganz 
oder teilweise bekannter Zusammensetzung sowie die Verwertung der hieraus ge- 
wonnenen Erkenntnisse. Wichtige Beispiele sind die Analyse der Sekundar- oder 



43 



WO 2004/017258 




PCT/EP2003/008951 



Tertiarstruktur von Proteinen oder die Analyse der funktionellen raum-zeitlichen 
Struktur aktiver Zentren von Enzymen. 

Eine wesentliche Erfindung in diesem Zusammenhang ist, dafi zum Zwecke der Mole- 
kulardynamiksimulation "starre", d. h. nur durch starke aufiere Einfliisse wesentlich 
veranderliche, raumliche Beziehungen oder Zwangsbedingungen zwischen den Ato- 
men eines Molekiils bzw. seiner Umgebung dazu verwendet werden, urn die Topologie 
des Anordnungsraumes einer topologieerhaltenden Abbildung zu definieren. Ein typi- 
sches Beispiel fur solche starren raumlichen Beziehungen sind Bindungslangen und 
Bindungswinkel in kovalenten Bindungen zwischen den Atomen eines Molekiils. Im 
einfachsten Fall wird jedem Atom bzw. einer Gruppe von Atomen ein Datenobjekt 
im Anordnungsraum sowie ein Codebuchobjekt zugeordnet. 

Durch Training der topologieerhaltenden Abbildung durch XOM konnen dann Wech- 
selwirkungen zwischen Atomen bzw. der Umgebung modelliert werden, wobei die 
Analyse des Ergebnisraumes die gewiinschte Struktur des Molekiils Uefert. Beispiele 
fur Vorgehensweisen bei einer solchen Modellierung sind: 

(a) Modellierung der Wechselwirkung durch codebuchobjektspezifische Variation 
der Lernvorschrift der topologieerhaltenden Abbildung, etwa im Sinne von 
Punkt Im. Ein einfaches Beispiel ware bei Verwendung selbstorganisierender 
Karten die von der Starke der Wechselwirkung abhangende Modellierung des 
Lernparameters e gemafl Gleichung (9). Analog dazu ware eine Modellierung 
denkbar, bei der die Wechselwirkung zwischen zwei Atomen nicht bei jedem 
Lernschritt, sondern in Abhangigkeit von der Starke der Wechselwirkung, sel- 
tener beriicksichtigt wird. Hierdurch lassen sich auch unterschiedliche Grade 
von "Starrheit" im Hinblick auf die oben erwahnten raumlichen Zwangsbedin- 
gungen modellieren. 

(b) Iterative Anwendung von XOM, z. B. gemafi Is. Dies kann insbesondere mit 
einer Vorgehensweise kombiniert werden, in der die XOM-Molekulardynamiksi- 
mulation in kleine Simulationsstufen aufgegliedert wird, wobei in jeder Simula- 
tionsstufe nur geringe Anderungen der raum-zeitlichen Molekulstruktur model- 
liert werden. Am Ende einer Simulationsstufe wird nun der Ergebnisraum als 
neuer Anordnungsraum der topologieerhaltenden Abbildung verwendet und die 
Simulation fortgefuhrt. Hierbei konnen die urspriinglichen Zwangsbedingungen 
in der Topologie des Anordnungsraumes wieder korrigiert werden, die im Laufe 
des vorangegangenen Simulationsschrittes im Rahmen von Topologieverletzun- 
gen im Ergebnisraum im Vergleich zur Topologie des Anordnungsraums nicht 
mehr adaquat reprasentiert waren. Topologieverletzungen im Hinblick auf die 
Zwangsbedingungen konnen also wieder korrigiert werden. Zugleich konnen 
neue topologische Beziehungen zwischen den Atomen, die aus dem Ergebnis 
des vorangegangenen Simulationsschrittes abgeleitet werden konnen, fur die 
Modellierung des neuen Anordnungsraumes beriicksichtigt werden. Insbeson- 
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dere sind auch Vorgehensweisen denkbax, bei denen eine standige Korrektur 
von lokalen Topologieverletzungen, z. B. im Hinblick auf die unter 2 genannten 
Kriterien erfolgt. 

11. Robotik: In zu Punkt 10 analoger Weise lassen sich auch Problemlosungen in der 
Robotik erzielen, insbesondere auf dem Gebiet der inversen Kinematik. 

In Analogie zum Vorgehen bei der Molekulaxdynamiksimulation werden hierbei 
"starre", d. h. nur durch starke aufiere Einfliisse wesentlich veranderliche, raumliche 
Beziehungen oder Zwangsbedingungen zwischen den Bestandteilen eines Roboters 
bzw. zwischen dem Roboter und seiner Umgebung dazu verwendet, um die Topologie 
des Anordnungsraumes einer topologieerhaltenden Abbildung zu definieren. Ein typi- 
sches Beispiel fur solche starren raumlichen Beziehungen sind Form und Grofie von 
Bauteilen eines Roboters oder Zwangsbedingungen bzgl. der relativen Beweglichkeit 
seiner Bauteile zueinander. Im einfachsten Fall wird charakteristischen Punkten von 
Bauteilen oder einer lokalisierten Gruppe von Bauteilen ein Datenobjekt im Anord- 
nungsraum sowie ein Codebuchobjekt zugeordnet. 

Alle in Punkt 10 gemachten Bemerkungen sind dann in vollig analoger Weise an- 
wendbar. 

12. Sortieren: Durch XOM konnen Verfahren und Vorrichtungen fur das Sortieren von 
Datenobjekten realisiert werden, B. unter RuckgrifF auf Punkt 1. Hierbei wird die 
gewunschte Ordnung der Datenobjekte durch die Topologie des Anordnungsraumes 
reprasentiert. Dies ist auch insbesondere dann durchzufiihren, wenn als Eingabeda- 
ten lediglich eine echte Teilmenge der moglichen paarweisen Ordnungsbeziehungen 
zwischen den Datenobjekten bekannt oder berechenbar ist bzw. fur das Sortieren 
verwendet werden soli. 

13. Optimierung: Durch XOM konnen Verfahren und Vorrichtungen zum Auffinden 
von Losungen von Optimierungsproblemen realisiert werden unter RuckgrifF auf alle 
Punkte dieser Patentschrift, insbesondere auf Punkt 1 sowie in Kombination von 
XOM mit Verfahren und Vorrichtungen gemaB Stand der Technik. 

Wichtige Aspekte im Hinblick auf den Einsatz von XOM fur das Auffinden von 
Losungen von Optimierungsproblemen sind, dafi 

(a) dies insbesondere auch dann moglich ist, wenn als Eingabedaten lediglich eine 
echte Teilmenge der berechenbaren paarweisen Distanzen zwischen den Date- 
nobjekten verwendet wird. 

(b) dies insbesondere auch dann moglich ist, wenn paarweise Distanzen zwischen 
Datenobjekten keine Metrik bilden. 

(c) dies insbesondere auch zum Auffinden von Losungen von NP-harten Optimie- 
rungsproblemen eingesetzt werden kann, z. B. von metrischen oder insbeson- 
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dere auch nichtmetrischen Travelling-Salesman-Problemen oder hierzu mathe- 
matisch aquivalenten Problemen. Beim Travelling-Salesman-Problem kann bei- 
spielsweise die Position der Stadte die Topologie des Anordnungsraumes festle- 
gen, eine ringformige Gleichverteilung kann den Erkundungsraum reprasentie- 
ren. Die Visualisierung der Losung kann dann sowohl durch einen Erkundungs- 
als auch insbesondere durch einen Anordnungsplot gemafi 2 erfolgen. 

14. Konstruktion von Hypermannigfaltigkeiten: Durch XOM konnen Verfahren 
und Vorrichtungen zur Konstruktion approximierender Hypermannigfaltigkeiten und 
zur nichtlinearen Hauptkomponentenanalyse realisiert werden unter RiickgrifF auf 
alle Punkte dieser Patentschrift, insbesondere auf Punkt 1 sowie in Kombination 
von XOM mit Verfahren und Vorrichtungen gemafi Stand der Technik. 

Wichtige Aspekte im ffinblick auf den Einsatz von XOM zur Konstruktion approxi- 
mierender Hypermannigfaltigkeiten und zur nichtlinearen Hauptkomponentenana- 
lyse sind, dafi 

(a) dies insbesondere dadurch erfolgen kann dafi die Berechnung von Stiitzstellen 
fur die Hypermannigfaltigkeiten durch lokale, ggf. gewichtete Mittelwertbil- 
dung, Interpolation oder Approximation im Anordnungsraum oder Ergebnis- 
raum nach erfolgter XOM-Einbettung erfolgt, vgl. auch Punkt 4. Die XOM- 
Einbettung fur die nichtlineare Hauptkomponentenanalyse ist z. B. moglich 
durch die Berechnung eines Pfades durch die Datenobjekte des Anordnungs- 
raumes auf der Basis einer Einbettung in eine ID-Mannigfaltigkeit im Erkun- 
dungsraum. 

(b) hierbei insbesondere auch die Grofie oder Struktur der hierfiir gewahlten lo- 
kalen Bereiche veranderlich sein kann, z. B. unter Verwendung von Verfahren 
oder Vorrichtungen gemafi Punkt 2, z. B. urn eine lokale Anpassung der Re- 
prasentationsqualitat der Hyperflache zu ermoglichen 

(c) insbesondere auch die Dimension oder Struktur des TVainingsdatensatzes im 
Erkundungsraum lokal oder global wahrend eines Ttainingsvorganges oder im 
Laufe wiederholter TVainingsvorgange veranderlich sein kann, z. B. unter Ver- 
wendung von Kriterien zur Bestimmung der globalen oder lokalen Topologieer- 
haltung oder Dimensionsschatzung, z. B. gemafi Punkten 2 oder 3, dynamisch 
angepafit wird. 

(d) insbesondere die hypothetisch angenommene Dimension oder Struktur der re- 
prasentierenden Hypermannigfaltigkeit im Anordnungsraum oder der Anord- 
nungsraum selbst lokal oder global wahrend eines Trainingsvorganges oder im 
Laufe wiederholter Trainingsvorgange veranderlich sein kann, z. B. unter Ver- 
wendung von Kriterien zur Bestimmung der globalen oder lokalen Topologieer- 
haltung oder Dimensionsschatzung , z. B. gemafi Punkten2 oder 3, dynamisch 
angepafit wird. 
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(e) insbesondere auch im Sinne evolutionarer Algorithmen Strukturhypothesen 
iiber Datenverteilungen im Erkundungsraum oder reprasentierende Hyperman- 
nigfaltigkeiten im Anordnungsraum erzeugt, dynamisch verandert und/oder 
optimiert werden, insbesondere durch Verfahren oder Vorrichtungen nach 14c 
oder 14d, wobei einzelne Strukturhypothesen auch als Individuen betrachtet 
werden konnen. Insbesondere konnen hierbei auch Mutationen durch Verwen- 
dung von Kriterien zur Bestimmung der globalen oder lokalen Topologieerhal- 
tung oder Dimensionsschatzung, z. B. nach Punkten 2 (hier insbesondere auch 
Punkt 2h) oder 3, beeinflufit werden. 

(f ) die Visualisierung der erzeugten Hypermannigfaltigkeiten direkt im Anordnun- 
graum oder indirekt iiber deren Einbettung im Erkundungs- bzw. Ergebnis- 
raum erfolgen kann. Die Visualisierung ist somit durch Erkundungs-, Ergebnis-, 
und Anordnungsplots im Sinne von Punkt 2 moglich. Hierbei kann insbesonde- 
re auch die Visualisierung der lokalen Abbildungsqualitat gemafi Punkt 2 auf 
diesen Hypermannigfaltigkeiten oder deren Einbettungen durch Farbkodierung 
oder sonstige optische Kodierung erfolgen. 

15. Interpolation, Extrapolation, Approximation: Durch XOM konnen Verfah- 
ren und Vorrichtungen zur Interpolation, Extrapolation oder Approximation von 
Datenverteilungen realisiert werden unter Riickgriff auf alle Punkte dieser Patent- 
schrift, insbesondere auf Punkt 1 sowie in Kombination von XOM mit Verfahren 
und Vorrichtungen gemafi Stand der Technik. 

Wichtige Aspekte im Hinblick auf Interpolation, Extrapolation oder Approximation 
bei XOM sind, dafi 

(a) dies insbesondere durch Verfahren und Vorrichtungen gemafi Punkt 11 erfolgen 
kann. 

(b) dies insbesondere auch dann moglich ist, wenn die Interpolation, Extrapolation 
oder Approximation nach partiellem oder vollstandigem Training der topolo- 
gieerhaltenden Abbildung fur zusatzlich hinzugefugte Datenobjekte erfolgen 
soil. 

(c) dies insbesondere durch Verfahren und Vorrichtungen gemafi Punkt 14 erfolgen 
kann. 

(d) insbesondere durch Einsatz von Verfahren oder Vorrichtungen gemafi Stand der 
Technik, z. B. neuronale Netze, lokale Modelle oder beliebige andere Verfahren 
zur Interpolation, Extrapolation oder Approximation die Datenverteilungen im 
Erkundungs-, Ergebnis-, und/oder Anordnungsraum von im Sinne von XOM 
trainierten topologieerhaltenden Abbildungen verarbeitet werden konnen. 

16. Selbstorganisation: Durch XOM konnen Verfahren und Vorrichtungen zur Selbst- 
organisation und Morphogenese von beliebigen Objekten, Strukturen oder Syste- 
men, insbesondere technischen Systemen, realisiert werden, die iiber Eigenschaften 
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wie Selbstregeneration, Selbstreproduktion oder dezentrale Informationsspeicherung 
verfiigen. Dies kann erfolgen unter Riickgriff auf alle Punkte dieser Patentschrift, 
insbesondere auf Punkt 1, hier besonders It sowie in Kombination von XOM mit 
Verfahren und Vorrichtungen gemafi Stand der Technik. 

17. Relevance Learning: Durch XOM konnen Verfahren und Vorrichtungen zur Be- 
stimmung der Relevanz von Datenobjekten oder Komponenten von Datenobjekten 
fur Aufgaben der Datenverarbeitung und DatenanaJyse durch Bestimmung aufga- 
benspezifischer Zielkriterien realisiert werden, unter Riickgriff auf alle Punkte dieser 
Patentschrift, insbesondere auf Punkt 1 sowie in Kombination von XOM mit Ver- 
fahren und Vorrichtungen gemafi Stand der Technik. Dies kann z. B. erfolgen durch 
Skalierung der einzelnen Dimensionen bei vektoriellen Eingabedaten, Auswahl von 
bestimmten Datenobjekten aus dem Trainingsdatensatz fur das Training der topolo- 
gieerhaltenden AbbbUdung, z. B. fur Aufgaben des iiberwachten Lernens, Clustering 
oder der Konstruktion reprasentierender Hypermannigfaltigkeiten. 

18. Visualisierung und Layout von Graphen: Durch XOM konnen Verfahren und 
Vorrichtungen zur Visualisierung und zum Layout von Graphen realisiert werden 
unter Riickgriff auf alle Punkte dieser Patentschrift, insbesondere auf Punkt 1 so- 
wie in Kombination von XOM mit Verfahren und Vorrichtungen gemafi Stand der 
Technik. 

Der Einsatz von XOM zum Layout und zur Visualisierung von Graphen kann auch 
insbesondere erfolgen, 

(a) wenn zum Training mehr als eine Datenverteilung im Erkundungsraum benutzt 
wird. 

(b) wenn zum Training keine uniforme Datenverteilung im Erkundungsraum be- 
nutzt wird. 

(c) wenn die Datenobjekte oder TeUmengen davon im Anordnungsraum nicht einer 
Metrik im mathematischen Sinne genugen. 

(d) wenn die zum Training benutzten Datenverteilungen im Erkundungsraum nicht 
konvex sind. 

(e) wenn die Datenobjekte oder Teilmengen davon im Anordnungsraum oder im 
Erkundungsraum nicht der euklidischen Geometrie genugen oder deren Distanz 
durch beliebige Dissimilaritatsmafie definiert ist. 

(f) wenn fur das Training Distanzen von beliebigen Datenobjekten verwendet wer- 
den, auch dann, wenn diese nicht durch eine Kante miteinander verbunden sind, 
z. B. unter Verwendung geodatischer Distanzen oder einer Rangmetrik. 

(g) wenn die topologieerhaltende Abbildung nicht der sequentiellen Formulierung 
einer selbstorganisierenden Karte nach Kohonen entspricht. 
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(h) wenn die zum Training der topologieerhaltenden Abbildung verwendete Ver- 
teilung der Trainingsdaten im Erkundungsraum nicht die Dimension 2 oder 3 
hat. 

(i) wenn die zum Training der topologieerhaltenden Abbildung verwendete Ver- 
teilung keine Kugel in 3D ist. 

(j) wenn die TVainingvorschrift der topologieerhaltenden Abbildung fur die zu 
den Knoten gehorenden Codebuchobjekte sich fur unterschiedliche Knoten 
bzw. Codebuchobjekte unterscheiden kann, vgL auch Punkt lm. 

(k) wenn fur die Visualisierung des Graphen nicht alle Verbindungen gezeichnet 
werden, fur die wechselseitige Distanzen bekannt sind oder berechnet wurden. 

19. Anwendungen: Durch XOM konnen Verfahren und Vorrichtungen fur Anwen- 
dungen aus den Bereichen Schaltungsentwurf, Bioinformatik, Robotik, Meteorolo- 
gie, Bildverarbeitung, technische, selbstorganisierende und -reparierende Systeme, 
Textmining, Flugsicherung, Verkehrsleitsysteme, Codierung, Chiffrierung, Sicher- 
heitstechnik konstruiert werden. Dies kann erfolgen unter Ruckgriff auf alle Punkte 
dieser Patentschrift, insbesondere auf Punkt 1, hier besonders It sowie in Kombi- 
nation von XOM mit Verfahren und Vorrichtungen gemafi Stand der Technik. 

20. Kombinationen: Die in den einzelnen Punkten aufgefiihrten Verfahren und Vor- 
richtungen konnen auf vielfaltige Weise kombiniert werden. Besonders hervorzuhe- 
ben sind in diesem Zusammenhang: 

(a) Kombination von Dimensionsbestimmung und Einbettung 

(b) Kombination von Einbettung und Bestimmung von approximierender Hyper- 
mannigfaltigkeiten 

(c) Kombination von Clustering und Clustervaliditatsanalyse 

(d) Kombination von Einbettung und Clustering. Die Einbettung kann hierbei zur 
Dimensions- bzw. Datenreduktion dienen. 

21. Kombination mit Vorrichtungen und Verfahren gemafi Stand der Tech- 
nik: Die in den einzelnen Punkten aufgefiihrten Verfahren und Vorrichtungen konnen 
auch in Kombination mit Verfahren und Vorrichtungen angewandt werden, die dem 
Stand der Technik entsprechen. Insbesondere sind hervorzuheben: 

(a) Kombination von XOM-Clustering mit Verfahren und Vorrichtungen zum iiber- 
wachten Lernen, insbesondere zur Erzeugung von Netzwerken im Sinne von 
Radiale-Basisfunktionen-Netzwerken mit und ohne Normierung der Basisfunk- 
tionen. Hierbei kann zur Definition der Basisfunktionen ein beliebiges Distanz- 
mafi zwischen den Codebuchobjekten und den Lokalisationsparametern (z. B. 
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Schwerpunkt, Median) der fur das XOM-Clustering eingesetzten prototypi- 
schen Verteilungen des Erkundungsraumes verwendet werden, z. B. die Li- 
kelihood der Positionierung der Codebuchobjekte im Hinblick auf die prototy- 
pischen Verteilungen. 

(b) Kombination von XOM-Einbettung mit Verfahren oder Vorrichtungen zur In- 
terpolation oder Approximation. 

22. Visualisierung: Zur Visualisierung von Eingabedaten, Strukturhypothesen und 
Berechnungsergebnissen bei XOM konnen zahlreiche Verfahren und Vorrichtungen 
eingesetzt werden. Hervorzuheben sind hier insbesondere 

(a) die Visualisierung der Codebuchobjekte im Ergebnis- bzw. Erkundungsraum 
oder deren Wanderungsbewegung im Sinne eines Ergebnisplots, vgl. Punkt 2 

(b) die Visualisierung der Trainingsdatenverteilungen im Erkundungsraum im Sin- 
ne eines Erkundungsplots, vgl. Punkt 2 

(c) die Visualisierung der Datenobjekte des Erkundungs- oder Ergebnisraumes im 
Anordnungsraum im Sinne eines Anordnungsplots, vgl. Punkt 2 

(d) die Visualisierung der Abbildungsqualitat durch Distanzplot oder daraus ab- 
geleitete Grofien, vgl. Punkt 2 

(e) Farbcodierung oder anderw.eitige graphische Kennzeichnung der lokalen Topo- 
logieverletzung oder anderer lokaJer Kriterien der Abbildungsqualitat gemafi 
Punkt 2 im Erkundungs-, Ergebnis-, Anordnungs-, oder Distanzplot. 

23. Mutual Connectivity Analysis: Im folgenden seien Verfahren und Vorrichtun- 
gen beschrieben, die eine innovative Art der Datenverarbeitung auf der Basis von 
Dissimilaritatsdaten ermoglichen. Das zugrundeliegende Verfahren wird forthin als 
"Mutual Connectivity Analysis" (MCA) bezeichnet. XOM reprasentiert eine wich- 
tige Methode zur Datenanalyse im Zusammenhang mit MCA, siehe unten. 

Zur Verdeutlichung sei zunachst ein Beispiel fur einen typischen technischen Ver- 
fahrensablauf dargestellt. Es sei betont, dafi dieser Verfahrensablauf nicht auf die 
in diesem Beispiel genannten Datentypen und Berechnungsverfahren eingeschrankt 
ist. 

• Ausgangspunkt sei eine Menge von N Zeitreihen Z = {zi, . . . , z N }, z. B. in 
Form einer Menge von Datenvektoren im R M y M G IN, wobei jeder Datenvek- 
tor z n , n = 1, . . . , N eine Zeitreihe und jedes Element des Vektors z n den 
Wert der Zeitreihe zum Zeitpunkt t reprasentiert mit t € {1, . . . , M}. 

• Nun wird fur jede Zeitreihe ein "gleitendes Fenster" der Lange 2p + 1 mit 
p, p £ IN, p < M definiert, das 2p+ 1 zeitlich benachbarte Werte der Zeitreihe 
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mit t — p < t < t +p, bzw. 2p-h 1 aufeinanderfolgende Elemente des die Zeitrei- 
he reprasentierenden Datenvektors zusammenfafit, wobei p fur alle Zeitreihen 
gleich gewahlt wird. (Fur den Anfang und das Ende der Zeitreihe seien heu- 
ristische Konventionen getroffen, wie das gleitende Fenster dort zu definieren 
sei.) Die hierdurch aus der Zeitreihe z n ausgeschnittenen Bereiche bzw. die aus 
dem die Zeitreihe reprasentierenden Datenvektor ausgeschnittenen Vektoren 
seien im folgenden als "Fenster" x„(z) bezeichnet. 

• Nun werden jeweils zwei Zeitreihen z, und z 8 ausgewahlt. 

• Dann wird fur alle Fenster dieser beiden Zeitreihen, beispielsweise durch An- 
wendung eines liberwachten Lemverfahrens, eine Distanz d(x r (t),x s (t)) ermit- 
telt. Dies kann beispielsweise erfolgen, indem fur jedes t der Vorhersagefehler 
ermittelt wird, mit dem nach Abschlufi des Trainings des liberwachten Lem- 
verfahrens x 5 (<) aus Xr(t) vorhergesagt werden kann. Das iiberwachte Lern- 
verfahren kann beispielsweise trainiert werden mit einer Teilmenge aller Paare 
(xr(r),x 3 (t)), hierzu kann die Menge dieser Paare - wie fur die Anwendung 
iiberwachter Lernverfahren aJlgemein iiblich - in Trainings-, Test-, und/oder 
Validierungsdatensatze aufgespalten werden. Es ist klar, dafi es je nach Frage- 
stellung auch sinnvoll sein kann, statt d(xr(t),x s (t)) auch d(xr(t),x 5 (t + r)) 
mit geeignet zu wahlendem Zeitversatz r zu bestimmen. 

• Durch ein geeignetes Berechnungsverfahren bestimmt man nun fur die als Test- 
datensatz ausgewahlten Paare (x,.(z),x 5 (t)) aus den errechneten d(xr(t),x a (t)) 
eine Distanz D T8 = D(x r ,x J ) zwischen den Zeitreihen z r und z a . Eine nahe- 
liegendes Berechnungsverfahren hierfur ist zum Beispiel die Mittelwertbildung 
aus den d(x r (t),x 5 (t)) fur alle im Testdatensatz betrachteten t im Sinne eines 
mittleren Vorhersagefehlers. Man beachte, dafi i. a. D rs ^ D ST gilt. 

• Das Verfahren kann nun beispielsweise fur alle N 2 Paare von Zeitreihen wie- 
derholt werden. 

• Die hieraus erhaltene Distanzmatrix der Distanzen zwischen jeweils zwei Zeitrei- 
hen kann nun auf beliebige Weise weiterverarbeitet werden, insbesondere durch 
Verfahren der Datenpartitionierung auf Dissimilaritatsdaten, z. B. paarweises 
Clustering gemafi Stand der Technik, z. B. [21], [14], [10] oder dieser Patent- 
schrift, z. B. nach Punkt 5 oder durch Verfahren der Klassifikation auf Dissi- 
milaritatsdaten, z. B. gemafi Punkt 7d. 

Bei der Bestimmung der wechselseitigen Distanzen der Zeitreihen kann ein erheb- 
licher Geschwindigkeitsvorteil dadurch erzielt werden, dafi Berechnungsvorschriften 
angewandt werden, die diese Distanzbestimmung in zwei Schritte aufspalten, wo- 
bei ein Schritt fur jede Zeitreihe nur einmal durchgefuhrt und nur der verbleibende 
Schritt fur jedes Zeitreihenpaar durchgefuhrt werden mufi. 

Dies sei an obigem Beispiel erlautert: So kann man die Vorhersage einer Zeitrei- 
he z„ aus einer anderen Zeitreihe z r beispielsweise durch Training eines Radiale- 
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Basisfunktionen-Netzwerkes (z. B. nach [46]) verwirklichen: hierbei werden zunachst 
die Fenster der Zeitreihe z r einer Vektorquantisierung unterzogen. Hierdurch erhalt 
man prototypische Zeitreihenfenster, die man im Sinne der einfiihrenden Bemer- 
kungen iiber Vektorquantisierung in Abschnitt 1.1 als Codebuchvektoren bezeich- 
nen kann. Entscheidend ist, dafi diese Vektorquantisierung fur jede Zeitreihe nur 
einmal durchgefuhrt werden mufi. Die Codebuchvektoren werden nun fur das iiber- 
wachte Training der Ausgabeschicht eines Radiale-Basisfunktionen-Netzwerks ein- 
gesetzt (vgl. z. B. [46]), wobei als Zielwerte fur das iiberwachte Training die Fenster 
der Zeitreihe z 5 eingesetzt werden. Das Training der Ausgabeschicht des Radiale- 
Basisfunktionen-Netzwerkes mufi fur jede aus der Zeitreihe z r vorherzusagende Zeit- 
reihe z 3 wiederholt werden, also - falls man alle Zeitreihenpaare beriicksichtigt - ins- 
gesamt 7V 2 -mal. Die Vektorquantisierung mufi also - falls man alle Zeitreihenpaare 
beriicksichtigt - insgesamt 7V-mal, das Training der Ausgabeschicht des Radiale- 
Basisfunktionen-Netzwerkes iS^-mal durchgefuhrt werden. Im allgemeinen ist nun 
der Berechnungsaufwand fur die Vektorquantisierung erheblich grofier als fiir das 
iiberwachte Training der Ausgabeschicht des Radiale-Basisfunktionen-Netzwerkes, 
wodurch sich fur das Gesamtverfahren ein erheblicher Geschwindigkeitsvorteil er- 
gibt. 

In analoger Weise kann man statt der Anwendung von Radiale-Basisfunktionen- 
Netzwerken auch lokale Modelle einsetzen, z. B. [43], [29], z. B. lokale Durch- 
schnittsmodelle oder lokale lineare Modelle. So kann man fur die Vorhersage ei- 
ner Zeitreihe z 5 aus einer anderen Zeitreihe z r folgendermafien vorgehen: Bestimme 
zunachst jeweils die A; nachsten Nachbarn der Fenster der Zeitreihe z r unter den an- 
deren Fenstern dieser Zeitreihe. Dieser Schritt mufi fiir jede Zeitreihe z r nur einmal 
durchgefuhrt werden. In einem zweiten Schritt wird dann fiir jede vorherzusagende 
Zeitreihe gemafi der Berechnungsvorschrift des jeweils angewandten lokalen Modells 
zwischen diesen A; nachsten Nachbarn der Zeitreihenfenster interpoliert bzw. appro- 
ximiert, wobei als Zielwerte fur das iiberwachte Training die Fenster der Zeitreihe z s 
eingesetzt werden. Die Interpolation bzw. Approximation fiir die k nachsten Nach- 
barn der Zeitreihenfenster in der Berechnungsvorschift des lokalen Modells mufi fiir 
jede aus der Zeitreihe z r vorherzusagende Zeitreihe z s wiederholt werden, also - 
falls man alle Zeitreihenpaare beriicksichtigt - insgesamt A^-maL Die Suche der k 
nachsten Nachbarn der Zeitreihenfenster mufi also - falls man alle Zeitreihenpaa- 
re beriicksichtigt - insgesamt Af-mal, die Interpolation bzw. Approximation fur die 
gefundenen k nachsten Nachbarn der Zeitreihenfenster 7V 2 -mal durchgefuhrt wer- 
den. Im allgemeinen ist nun der Berechnungsaufwand fiir die Suche der k nachsten 
Nachbarn der Zeitreihenfenster erheblich grofier als fiir die Interpolation bzw. Ap- 
proximation gemafi der Berechnungsvorschrift des lokalen Modells, wodurch sich fiir 
das Gesamtverfahren ebenfalls ein erheblicher Geschwindigkeitsvorteil ergibt. 

Zur Verdeutlichung sei zunachst ein Beispiel fiir einen typischen technischen Ver- 
fahrensablauf dargestellt. 
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Es sei betont, daB das Konzept der MCA nicht auf die in diesem Beispiel zur Ana- 
lyse von Zeitreihenmengen genannten Datentypen und Berechnungsverfahren einge- 
schrankt ist. Das obige Beispiel motiviert allgemein vielmehr folgenden technischen 
Verfahrensablauf: 

Zunachst seien einige Begriffe definiert: 

Datenobjekte seien Daten ohne jegliche Beschrankungen, z. B. Mengen, Zahlen, Vek- 
toren, Graphen, Symbole, Texte, Bilder, Signale, mathematische Abbildungen und 
deren Reprasentationen, z. B. Matrizen, Tensoren etc. sowie beliebige Kombinatio- 
nen von Datenobjekten. 

Unterdatenobjekte seien Datenobjekte, die nicht die Gesamtinformation des Date- 
nobjektes enthalten, d. h. aus der Kenntnis eines Unterdatenobjektes sei das ur- 
sprungliche Datenobjekt i. a. nicht vollstandig berechenbar. 

Distanzobjekte seien Datenobjekte, die Ahnlichkeitsbeziehungen bzw. Distanzen zwi- 
schen Datenobjekten gemafi einem beliebigen Distanzmafi charakterisieren. Hierbei 
sind sowohl durch Metriken induzierte Distanzniafie als auch insbesondere durch 
beliebige, ggf. nicht durch eine Metrik bestimmte, Distanzmafie definierte Ahnlich- 
keitsbeziehungen bzw. Dissimilaritaten eingeschlossen. Einige typische Distanzmafie 
auf der Basis von Dissimilaritaten sind z. B. in [19] aufgefuhrt. Metrik sei hierbei in 
mathematischem Sinne definiert, siehe z. B. [5]. 

Unterdistanzobjekte Distanzobjekte zwischen Unterdatenobjekten, insbesondere un- 
terschiedlicher Datenobjekte. 

Zur Verdeutlichung sei erwahnt, dafi im Hinblick auf das obige Beispiel folgende 
Entsprechungen gewahlt werden konnten: Datenobjekt entspricht Zeitreihe. Un- 
terdatenobjekt entspricht Fenster. Unterdistanzobjekt entspricht Distanz zwischen 
Zeitreihenfenstern unterschiedlicher Zeitreihen. 

Technischer Verfahrensablauf, MCA: 

Gegeben sei eine Menge von Datenobjekten. Die Menge der Datenobjekte kann 
insbesondere auch exakte Kopien von Datenobjekten enthalten. 

• Gib die Menge der Datenobjekte in das Verfahren bzw. die Vorrichtung zur 
Datenverarbeitung ein. 

• Zerlege die Datenobjekte in Unterdatenobjekte. Die Teilung mufi weder dis- 
junkt noch vollstandig erfolgen. 

• Berechne Distanzobjekte zwischen Unterdatenobjekten der eingegebenen Men- 
ge von Datenobjekten. Diese Distanzobjekte seien Unterdistanzobjekte ge- 
nannt. 

• Berechne unter Verwendung der Unterdistanzobjekte neue Distanzobjekte, die 
die Distanzen zwischen den Datenobjekten der eingegebenen Menge von Da- 
tenobjekten charakterisieren. 
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• Gib die hierdurch errechneten Distan2objekte aus. 

Wesentlich ist, dafi die Berechnung der Distanzobjekte zwischen den Unterdaten- 
objekten bzw. Datenobjekten durch beliebige Verfahren zur Interpolation, Extra- 
polation, und/oder Approximation durchgefiihrt werden kann. Insbesondere fallen 
hierunter: 

(i) Statistische Lernverfahren jeglicher Art, insbesondere solche, die uber- 
wachtes Lernen voraussetzen, insbesondere neuronale Netze und Support Vec- 
tor Machines, Bayes-Netze, Hidden-Markov-Modelle, Observable Operator Mo- 
dels (z. B. [23].). Unter den neuronalen Netzen seien insbesondere erwahnt: 
Multilayer- Perceptron in alien in der Literatur beschriebenen Varianten, insbe- 
sondere mit Training durch Error-Backpropagation; Radiale-Basisfunktionen- 
Netzwerke in alien in der Literatur beschriebenen Varianten, insbesondere auch 
generalisierte Radiale-Basisfunktionen-Netzwerke, ART-Netzwerke, Local Li- 
near Mappings (LLM) (vgl. z. B. [36]) in alien in der Literatur beschriebenen 
Varianten sowie andere neuronale Netze, die iiberwachtes Lernen ermoglichen, 
z. B. topologieerhaltende Abbildungen, z. B. selbstorganisierende Karten, sowie 
XOM. 

(ii) Lokale Modelle jeglicher Art: Lokale Durchschnittsmodelle (auch mit Ge- 
wichtung), lokale lineare Modelle, lokale Modelle mit topologischen Zusatzbe- 
dingungen ( z. B. [43]), insbesondere adaptive lokale Modelle, deren Parameter 
vom jeweils erzielten Lernerfolg abhangen (zur Literaturubersicht vgl. z. B. auch 
[43], [30], [29]). 

(iii) Verfahren der schliefienden Statistik, insbesondere wenn Priifgrofien oder 
Signifikanzniveaus statistischer Tests als Distanzmafi benutzt werden [39]. 

(iv) Spezielle Berechnungsverfahren wie Levenstein-Distanz, Mutual Informa- 
tion, Kullback-Leibler-Divergenz, in der Signalverarbeitung, insbesondere fiir 
Biosignale, eingesetzte Koharenzmafie, z. B. [42], [41], LPC cepstral distance, 
Distanzmafie, die Leistungsspektren zweier Signale in Beziehung setzen, wie 
z. B. die Itakura-Saito-Distanz (vgl. [22]), die Mahalanobis-Distanz, Distanz- 
mafie im Hinblick auf die Phasensynchronisation von Oszillatoren, z. B. [37]. 

Eine Variante des Verfahrensablaufe sei besonders aufgefiihrt: Zur Verdeutlichung 
sei erwahnt, dafi im Hinblick auf das obige Beispiel zur Analyse einer Menge von 
Zeitreihen zusatzlich folgende Entsprechungen gewahlt werden konnten: Ein Hilfs- 
datenobjekt entspricht beispielsweise einem Codebuchvektor bei der Vektorquan- 
tisierung der Zeitreihenfenster einer Zeitreihe bei der Zeitreihenvorhersage durch 
Radiale-Basisfunktionen-Netzwerke. Ein Hilfsdatenobjekt entspricht alternativ bei- 
spielsweise einer Menge von k nachsten Nachbaxn eines Zeitreihenfensters bei der 
Zeitreihenvorhersage durch lokale Modelle. 
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Variante des technischen Verfahrensablaufes, MCA: 

Gegeben sei eine Menge von Datenobjekten. Die Menge der Datenobjekte kann 
insbesondere auch exakte Kopien von Datenobjekten enthalten. 

• Gib die Menge der Datenobjekte in das Verfahren bzw. die Vorrichtung zur 
Datenverarbeitung ein. 

• Zerlege die Datenobjekte in Unterdatenobjekte. Die Teilung mufi weder dis- 
junkt noch vollstandig erfolgen. 

• Berechne fur Unterdatenobjekte einzelner Datenobjekte neue Datenobjekte, 
sog. Hilfedatenobjekte. 

• Berechne unter Verwendung von Hilfedatenobjekten Distanzobjekte zwischen 
Unterdatenobjekten der eingegebenen Menge von Datenobjekten. Diese Di- 
stanzobjekte seien Unterdistanzobjekte genannt. 

• Berechne unter Verwendung von Unterdistanzobjekten neue Distanzobjekte, 
die die Distanzen zwischen den Datenobjekten der eingegebenen Menge von 
Datenobjekten charakterisieren. 

• Gib die hierdurch errechneten Distanzobjekte aus. 

Insbesondere konnen bei der Berechnung eines Hilfsdatenobjekts nur die Unterda- 
tenobjekte jeweils eines einzelnen eingegebenen Datenobjekts und/oder mehr als 
jeweils ein Unterdatenobjekt verwendet werden. 

Im Anschlufi konnen die ausgegebenen Distanzobjekte analysiert werden. Hierzu 
eignen sich Verfahren und Vorrichtungen gemafi Stand der Technik und/oder den 
Ausfuhrungen in dieser Patentschrift. Insbesondere seien in diesem Zusammenhang 
speziell erwahnt: Verfahren und Vorrichtungen zum Clustering und/oder zum iiber- 
wachten Lernen, insbesondere zum paarweisen Clustering von Dissimilaritatsdaten, 
z. B. [21], [14], [10], Verfahren und Vorrichtungen zum XOM-Clustering gemafi 
Punkt 5, sowie zum iiberwachten Lernen, z. B. zur Klassifikation, auf Dissimila- 
ritatsdaten z. B. [15], Verfahren und Vorrichtungen zum iiberwachten Lernen auf 
Dissimilaritatsdaten durch XOM gemafi Punkt 7d. 

Als Anwendungsbeispiele seien genannt: Datenverarbeitung, z. B. Clustering, von 
Finanzzeitreihen, z. B. Wertpapierkursen, Verarbeitung von Daten, z. B. Zeitrei- 
hen, aus den Bereichen Wirtschaft, Finanzen, Medizin, Naturwissenschaft und/oder 
Technik, insbesondere angeordnete Datenobjekte, z. B. Zeitreihen, aus Laborwerten 
oder sonstigen Mefiwerten biomedizinischer oder meteorologischer Untersuchungs- 
verfahren, z. B. biomedizinische Bilder, Genexpressionsprofile, Gen- oder Amino- 
sauresequenzen. 

Fur obiges Beispiel zur Zeitreihenanalyse ist klar, dafi die dort getrofFenen Festle- 
gungen von Datentypen und Berechnungsverfahren im Lichte der allgemeinen tech- 
nischen Verfahrensablaufe keine Einschrankungen bedeuten. Insbesondere konnen 
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statt Zeitreihen beliebige, z. B. angeordnete Datenobjekte, 2. B. Bilder oder Gense- 
quenzen, verwendet werden. Bei der Analyse von Zeitreihen miissen die Werte der 
Zeitreihen nicht zeitlich aquidistant ermittelt worden sein, es miissen keine gleiten- 
den Fenster oder uberwachte Lernverfahren zur Analyse der ausgegebenen Daten 
verwendet werden etc. 
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Patentanspriiche 

1. Verfahren zur Datenverarbeitung, das auf einer Datenverarbeitungseinrichtung ab- 
lauft, fur die Abbildung von zu verarbeitenden Eingabedaten auf Ausgabedaten, bei 
dem: 

zu verarbeitende Datenobjekte als Eingabedaten eingegeben werden, 

die eingegebenen Datenobjekte mit Hilfe einer topologieerhaltenden Abbildung 
verarbeitet werden, indem 

Neuronen nach einem vorgegebenen Schema im Anordnungsraum angeord- 
net werden, 

den Neuronen Codebuchobjekte im Ergebnisraum zugeordnet werden, 
Codebuchobjekte verarbeitet werden gemafi der Berechnungsvorschrift ei- 
ner topologieerhaltenden Abbildung unter Verwendung von Datenobjekten 
des Erkundungsraumes, 

die verarbeiteten Codebuchobjekte als Ausgabedaten ausgegeben werden, 

dadurch gekennzeichnet, dafi 

zumindest ein Teil der eingegebenen Datenobjelcte verwendet wird, um die 
Anordnung von Neuronen im Anordnungsraum festzulegen, und/oder 

dafi fiir die Datenverarbeitung erforderliche, von den zu verarbeitenden Einga- 
bedaten unabhangige Datenobjekte eingegeben werden, die als Datenobjekte 
des Erkundungsraumes verwendet werden. 

2. Verfahren nach Anspruch 1, bei dem die zu verarbeitenden Datenobjekte Distanz- 
objekte sind. 

3. Verfahren nach Anspruch 1 oder 2, bei dem Datenobjekte im Anordnungsraum 
irregular angeordnet werden. 

4. Verfahren nach einem der vorhergehenden Anspruche, bei dem Datenobjekte des 
Anordnungsraumes, Erkundungsraumes und/oder Ergebnisraumes 

einer nichteuklidischen Geometrie geniigen, 

benutzt werden, die Distanzobjekte zu Datenobjekten einer lokalen Nachbar- 
schaft von Datenobjekten sind, 

Datenverteilungen mit fraktaler Dimension bilden, 

Datenverteilungen nicht orientierbarer Flachen im Sinne der Differentialgeo- 
metrie represent ieren, 
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wahrend des Trainingsvorganges oder im Laufe mehrerer Trainingsvorgange 
der topologieerhaltenden Abbildung hinzugefiigt, weggelassen oder verandert 
werden, insbesondere Distanzobjekte im Anordnungsraum hinzugefiigt, wegge- 
lassen oder verandert werden, 

durch Zusatzbedingungen beeinflufit werden, 

in lokalen Einheiten gespeichert und/oder verarbeitet werden 

und/oder 

nach Abschlufi des Trainings der topologieerhaltenden Abbildung hinzugefiigt, 
weggelassen oder verandert werden. 

5. Verfahren nach einem der vorhergehenden Anspriiche, bei dem die Berechnungs- 
vorschrift der topologieerhaltenden Abbildung und/oder wenigstens ein Parameter 
dieser Berechnungsvorschrift 

in Abhangigkeit vom jeweils verarbeiteten Datenobjekt des Anordnungs-, Er- 
kundungs- und/oder Ergebnisraumes ausgewahlt wird, 

wahrend des Trainingsvorganges oder im Laufe mehrerer Trainingsvorgange 
der topologieerhaltenden Abbildung verandert wird, insbesondere in Abhangig- 
keit vom jeweils verarbeiteten Datenobjekt des Anordnungs-, Erkundungs-, 
und/oder Ergebnisraumes, 

und/oder 

durch Zusatzbedingungen beeinflufit wird. 

6. Verfahren zur Datenverarbeitung, das auf einer Datenverarbeitungseinrichtung ab- 
lauft, fur die Abbildung von zu verarbeitenden Datenobjekten auf Distanzobjekte, 
bei dem: 

zu verarbeitende Datenobjekte eingegeben werden, 

Distanzen zwischen den zu verarbeitenden Datenobjekten als Distanzobjekte 
berechnet werden, 

diese Distanzobjekte als Ausgabedaten ausgegeben werden, 

dadurch gekennzeichnet, dafi 

die Distanzen durch statistische Lernverfahren, lokale Modelle, Verfahren der 
schliefienden Statistik, und/oder durch eines der folgenden speziellen Berech- 
nungsverfahren berechnet werden: 



Levenstein-Mafi, 
Mutual Information, 
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Kullback-Leibler-Divergenz, 

in der Signalverarbeitung, insbesondere fur Biosignale, eingesetzte Koha- 
renzmafie, 

LPC cepstral distance, 

Berechnungsverfahren, die Leistungsspektren zweier Signale in Beziehung 
setzen, wie z. B. die Itakura-Saito-Distanz, 
die Mahalanobis-Distanz 
und/oder 

Berechnungsverfaliren im Hinblick auf die Phasensynchronisation von Os- 
zillatoren. 

7. Verfahren zur Datenverarbeitung, das auf einer Datenverarbeitungseinrichtung ab- 
lauft, fur die Bestimmung der Clustervaliditat, 

bei dem Datenobjekte eingegeben werden, 

Distanzobjekte zwischen diesen Datenobjekten eingegeben und/oder berechnet 
werden, 

sowie eine Zuordnung der zu verarbeitenden Datenobjekte zu Gruppen ein- 
gegeben und/oder berechnet wird, insbesondere gemafi einem Verfahren nach 
einem der Anspniche 1 bis 5, 

und ein Mafi fur die Qualitat dieser Zuordnung als Ausgabedaten ausgegeben 
wird, 

dadurch gekennzeichnet, dafi 

das Mafi fur die Qualitat der Zuordnung unter Verwendung von wenigstens 
einem Teil der eingegebenen und/oder berechneten Distanzobjekte berechnet 
wird. 

8. Verfahren nach Anspruch 7, bei dem das Mafi fur die Qualitat der Zuordnung unter 
Anwendung eines Verfahrens nach einem der Anspniche 1 bis 6 und/oder einer 
Kostenfunktion eines Verfahrens zum Clustering von Dissimilaritatsdaten berechnet 
wird. 

9. Verfahren nach einem der vorhergehenden Anspniche, das wiederholt durchgefiihrt 
wird, wobei Ausgabedaten einer vorhergehenden Durchfiihrung des Verfahrens als 
Eingabedaten einer nachfolgenden Durchfiihrung des Verfahrens eingegeben werden. 

10. Verfahren nach einem der vorhergehenden Anspriiche, bei .dem die Qualitat der 
Ausgabedaten bestimmt wird und die bestimmte Qualitat ausgegeben wird. 

11. Verfahren nach Anspruch 10, bei dem die Qualitat bestimmt wird, indem 
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Mafie zur Topologie- und/oder Verteilungserhaltung berechnet werden, 
VerzerrungsmaBe berechnet werden, 

die Distanzen von Datenobjekten im Anordnungsraura mit Distanzen von kor- 
respondierenden Datenobjekten im Ergebnis- und/oder Erkundungsraum in 
Beziehung gesetzt werden, insbesondere in einera Distanzplot aufgetragen wer- 
den, 

Datenobjekte des Erkundungs-, Ergebnis-, und/oder Anordnungsraumes gra- 
phisch dargestellt werden, insbesondere in einem Erkundungs-, Ergebnis-, und/ 
oder Anordnungsplot aufgetragen werden, 

aus Datenobjekten des Erkundungs-, Ergebnis-, und/oder Anordnungsraumes 
berechnete Datenobjekte graphisch dargestellt werden, insbesondere in einem 
Erkundungs-, Ergebnis-, und/oder Anordnungsplot aufgetragen werden, 

der Abbildungsfehler zur Interpolation, Extrapolation, Approximation und/ 
oder uberwachtes Lernen berechnet und ausgegeben wird, insbesondere durch 
Hin- und Riickprojektion, 

und/oder 

Datenobjekte sequentiell verarbeitet werden. 

12. Verfahren nach Anspruch 10 oder 11, bei dem die bestimmte Qualitat benutzt wird, 
um 

Datenobjekte des Erkundungs-, Ergebnis-, und/oder Anordnungsraumes der topo- 
logieerhaltenden Abbildung hinzuzufugen, wegzulassen oder zu verandern, 

und/oder 

die Berechnungsvorschrift der topologieerhaltenden Abbildung und/oder deren Pa- 
rameter zu verandern, insbesondere in Abhangigkeit von Datenobjekten des Erkun- 
dungs-, Ergebnis-, und/oder Anordnungsraumes. 

13. Verfahren nach einem der vorhergehenden Anspriiche, bei dem die Datenveraxbei- 
tung angewandt wird 

zur Dimensionsbestimmung, insbesondere zur Bestimmung fraktaler Dimensio- 
ned 

zur nichtlinearen Einbettung, insbesondere von nichtmetrischen Daten und/oder 
Dissimilaritatsdaten, 

zum Clustering, insbesondere von nichtmetrischen Daten und/oder Dissimila- 
ritatsdaten, 

zur Bestimmung der Clustervaliditat, insbesondere fur Dissimilaritatsdaten 
und/oder nichtmetrische Daten, 

V 
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zum iiberwachten Lernen, insbesondere auf nichtmetrischen Daten und/oder 
Dissimilaritatsdaten, 

zur Registrierung von Datensatzen, 

zum aktiven Lernen, 

zum Sortieren, 

zur Optimierung, insbesondere fur nichtmetrische Daten und/oder Dissimila- 
ritatsdaten, 

zum Auffinden von Losungen von Travelling-Salesman-Problemen und dazu 
aquivalenten Problemen, insbesondere nichtmetrischen Travelling-Salesman- 
Problem en, 

zur Berechnung von Hypermannigfaltigkeiten, 

zur Interpolation, Extrapolation, und/oder Approximation, 

zum Relevance Learning, 

zur Visualisierung von Graphen, 

zum Layout von Graphen 

und/oder 

zur Konstruktion sich selbst entwickelnder, sich selbst reparierender und/oder 
reproduzierender Systeme, insbesondere technischer Systeme. 

14. Verfahren nach Anspruch 13, das wie folgt kombiniert angewandt wird: 

Dimensionsbestimmung und nichtlineare Einbettung, 

nichtlineare Einbettung und Berechnung von Hypermannigfaltigkeiten, 

Clustering und Bestimmung der Clustervaliditat 

und/oder 

nichtlineare Einbettung und Clustering. 

15. Verfahren nach einem der vorhergehenden Anspriiche, bei dem die Datenverarbei- 
tung angewandt wird 

zur Molekulardynamiksimulation, insbesondere bei dem Zwangsbedingungen, 
insbesondere starre raumliche Beziehungen, im Molekiil und/oder seiner Urn- 
gebung als Distanzen der Neuronen im Anordnungsraum modelliert werden, 

zur Problemlosung in der Robotik, insbesondere bei dem Zwangsbedingungen, 
insbesondere starre raumliche Beziehungen, im Roboter und/oder seiner Um- 
gebung als Distanzen der Neuronen im Anordnungsraum modelliert werden, 
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und/oder 

auf Daten aus den Bereichen Wirtschaft, Finanzen, Medizin, Geisteswissen- 
schaften, Naturwissenschaften und/oder Technik, insbesondere 

aus den Bereichen Schaltungsentwurf, Bioinformatik, Robotik, Meteorolo- 
gie, Bildverarbeitung, 

aus dem Bereich Datamining, insbesondere Textmining, 

aus dem Bereich Sicherheitstechnik, insbesondere Flug- und/oder Zugangs- 
sicherung, 

aus dem Bereich Logistik, insbesondere Verkehrsleitsysteme, 
und/oder 

aus dem Bereich der Nachrichtentechnik und/oder Kryptologie. 

16. Datenverarbeitungseinrichtung zur Durchfuhrung eines Verfahrens nach einem der 
vorhergehenden Anspriiche. 

17. Computerprogrammprodukt, welches in einem Speichermedium gespeichert ist und 
welches Softwarecodeabschnitte umfafit, mit denen Schritte nach einem der vorher- 
gehenden Verfahrensanspriiche ausgefuhrt werden, wenn das Computerprogramm- 
produkt auf einer Datenverarbeitungseinrichtung lauft. 



66 



(12) NACH DEM VERTRAG UBER DIE INTERNATIONALE ZUSAMMEN ARBEIT AUF DEM GEBIET DES 
PATENTWESENS (PCT) VEROFFENTLICHTE INTERNATIONALE ANMELDUNG 



(19) Weltorganisation fiir geistiges Eigentum 
Internationales Buro 




(43) Internationales Veroffentlichungsdatum (10) Internationale YeroffenUichungsnummer 

26. Februar 2004 (26.02.2004) PCT WO 2004/017258 A3 



(51) Internationale Patentklassffikation 7 : G06N 3/02 

(21) Internationales Aktenzeichen: PCT/EP2003/00895 1 

(22) Internationales Anmeldedatum: 

12. August 2003 (12.08.2003) 

(25) Einreichungssprache: Deutsch 

(26) Veroffentlichungssprache: Deutsch 

(30) Angaben zur Prioritat: 

102 37 310.8 14. August 2002 (14.08.2002) DE 

(71) Anmelder und 

(72) Erfinder: WISMULLER, Axel [DE/DE]; Stiftsbogen 35, 
81375 Munchen (DE). 

(74) Anwalte: JACOB Y, Georg usw.; Samson & Partner, 
Widenmayerstrasse 5, 80538 Munchen (DE). 

(81) Bestimmungsstaaten (national): AE, AG, AL, AM, AT, 
AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CO, CR, 



CU, CZ, DE, DK, DM, DZ, EC, EE, ES, FI, GB, GD, GE, 
GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, 
KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK, 
MN, MW, MX, MZ, NI, NO, NZ, OM, PG, PH, PL, PT, 
RO, RU, SC, SD, SE, SG, SK, SL, SY, TJ, TM, TN, TR, 
TT, TZ, UA, UG, US, UZ, VC, VN, YU, ZA, ZM, ZW. 

(84) Bestimmungsstaaten (regional): ARIPO Patent (GH, 
GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZM, ZW), 
eurasisches Patent (AM, AZ, BY, KG, KZ, MD, RU, TJ, 
TM), europaisches Patent (AT, BE, BG, CH, CY, CZ, DE, 
DK, EE, ES, FI, FR, GB, GR, HU, IE, IT, LU, MC, NL, 
PT, RO, SE, SI, SK, TR), OAPI Patent (BF, BJ, CF, CG, 
CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG). 

Veroffentlicht: 

— mil internationalem Recherchenbericht 

(88) Veroffentlichungsdatum des internationalen 

Recherchenberichts: 1 1 . November 2004 

Zur Erkldrung der Zweibuchstaben-Codes und der anderen Ab- 
kiirzungen wird auf die Erkldrungen ("Guidance Notes on Co- 
des and Abbreviations") am Anfang jeder regularen Ausgabe der 
PCT -Gazette verwiesen. 



= (54) Title: METHOD, DATA PROCESSING DEVICE AND COMPUTER PROGRAM PRODUCT FOR PROCESSING DATA 

= (54) Bezeichnung: VERFAHREN, DATENVERARBEITUNGSEINRICHTUNG UND COMPUTERPROGRAMMPRODUKT 
= ZUR DATENVERARBEITUNG 

IS (57) Abstract: The invention relates to a data processing method, which runs on a data processing device, for mapping input data to 
= be processed onto output data. According to this method: data objects to be processed are input as input data; the input data objects 
is are processed with the aid of a topology-preserving map by the arrangement of neurons according to a predetermined schema in 
== an arrangement space; code book objects in the result space are assigned to the neurons, and; code book objects are processed in 
accordance with the calculation rule of a topology-preserving map while using data objects of the investigation space. The processed 
code book objects are output as output data. The invention is characterized in that at least a portion of the input data objects is used 
in order to determine the arrangement of neurons in the arrangement space and/or in that data objects are input, which are required 
QO for processing data, are independent of the input data to be processed, and which are used as data objects of the information space. 

j*^, (57) Zusammenfassung: Die Erfindung betrifft ein Verfahren zur Datenverarbeitung, das auf einer Datenverarbeitungseinrichtung 
ablauft, fur die Abbildung von zu verarbeitenden Eingabedaten auf Ausgabedaten, bei dem: zu verarbeitende Datenobjekte als Ein- 
gabedaten eingegeben werden, die eingegebenen Datenobjekte mit Hilfe einer topologieerhaltenden Abbildung verarbeitet werden, 
^-j> indem Neuronen nach einem vorgegebenen Schema im Anordnungsraum angeordnet werden, den Neuronen Codebuchobjekte im 
Ergebnisraum zugeordnet werden, Codebuchobjekte verarbeitet werden gemaB der Berechnungsvorschrift einer topologieerhalten- 
den Abbildung unter Verwendung von Datenobjekten des Erkundungsraumes, die verarbeiteten Codebuchobjekte als Ausgabeda- 
ten ausgegeben werden, dadurch gekennzeichnet, daB zumindest ein Teil der eingegebenen Datenobjekte verwendet wird, um die 
Anordnung von Neuronen im Anordnungsraum festzulegen, und/oder daB fur die Datenverarbeitung erforderliche, von den zu ver- 
arbeitenden Eingabedaten unabhangige Datenobjekte eingegeben werden, die als Datenobjekte des Erkundungsraumes verwendet 
werden. 
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